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FO REWDO RD 


21 世纪 是 信息 爆炸 的 时 代 。 从 纷 杂 无 章 的 数据 中 发 现 潜在 的 知识 ， 进 而 提供 决策 支 
持 ， 是 许多 企业 、 部 门 增强 自身 竞争 力 的 有 力 手 段 。 数 据 挖掘 作为 重要 的 知识 发 现 技术 ， 
经 过 几 十 年 的 发 展 ， 在 理论 上 积累 了 丰硕 的 成 果 ， 许 多 高 效 的 、 智 能 的 数据 挖掘 算法 被 
提出 并 不 断 得 到 改进 和 完善 。 同 时 ， 专 用 的 或 者 通用 的 数据 挖掘 工具 也 不 断 被 推出 和 升 
级 。 因 此 ， 数 据 挖掘 技术 在 电信 、 人 金融、 信息 安全 等 许多 领域 得 到 了 广泛 的 应 用 。 

本 书 在 内 容 安排 上 以 理论 联系 实际 为 指导 原则 。 在 理论 上 ， 着 重 介绍 几 种 最 成 熟 的 
数据 挖掘 方法 ， 针 对 每 种 方法 ， 则 介绍 应 用 最 广泛 的 几 种 实现 算法 。 在 实践 上 ， 以 
Clementine 12.0 为 平台 ， 用 实例 介绍 每 种 算法 的 具体 应 用 方法 。 

本 书 共 分 为 9 章 。 第 1 章 和 第 2 章 分 别 对 数据 挖掘 和 Clementine 软件 进行 简要 的 介 
绍 。 第 3 一 9 章 中 每 章 介 绍 一 种 数据 挖掘 方法 。 第 3 章 介绍 决策 树 分 类 方法 ， 以 及 构建 决 
策 树 的 C4.5 算法 和 CART 算法 ;第 4 章 介 绍 聚 类 分 析 方 法 , 以 及 实现 聚 类 分 析 的 天 -Means 
算法 和 TwoStep 算法 ; 第 5 章 介 绍 关联 规则 挖掘 方法 , 包括 经 典 的 Apriori 算法 `、CARMA 
算法 以 及 序列 模式 挖掘 算法 ;第 6 章 介 绍 了 两 种 数据 筛选 算法 ， 即 特征 选择 算法 和 蜡 常 
检测 算法 ; 第 7 章 介 绍 了 回归 分 析 方 法 ， 包 括 线性 回归 方法 和 Logistic 回归 方法 ; 第 8 
章 介 绍 了 神经 网 络 建 模 方 法 ， 以 及 用 于 构建 神经 网 络 的 多 层 感 知 器 方法 、 径 向 基 函 数 网 
络 构建 方法 和 用 于 聚 类 分 析 的 Kohonen 网 络 构建 方法 ; 第 9 章 介 绍 时 间 序 列 分 析 方 法 ， 
包括 指数 平滑 法 和 ARIMA 模型 的 构建 方法 。 

本 书 各 章 中 的 实验 数据 集 可 在 http://jsjsyzx.znufe.edu.cn/downloads/dataset.rar 下 载 。 
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第 1 章 ”数据 挖掘 概述 


1.1) 数据 挖掘 简介 


数据 挖掘 是 适应 信息 社会 从 海量 数据 中 提取 信息 的 需要 而 产生 的 新 学 科 。 它 是 统计 
学 、 机 器 学 习 、 数 据 库 、 模 式 识 别 、 人 工 智能 等 学 科 的 交叉 ， 在 各 行 各 业 的 决策 支持 活 
动 中 扮演 着 越 来 越 重 要 的 角色 。 


人 们 在 长 期 的 社会 生活 和 实践 过 程 中 总 结 了 许多 的 经 验 和 教训 ， 这 些 内 容 对 于 人 们 
更 深层 次 地 了 解 事物 的 发 展 规律 有 着 重要 的 指导 意义 。 因 此 人 们 将 生活 和 实践 的 经 历 以 
及 在 这 些 经 历 中 产生 的 经 验 和 教训 以 各 种 形式 记录 下 来 , 如 以 文本 的 形式 、 音频 的 形式 、 
视频 的 形式 等 。 在 广义 上 ， 把 这 些 记录 下 来 的 内 容 称 为 数据 。 

数据 仅仅 是 人 们 观察 客观 世界 所 得 到 的 原始 材料 ， 只 能 够 为 人 们 提供 关于 客观 世界 
最 直观 的 、 浅 层次 的 信息 。 这 些 浅 层次 的 信息 对 于 深入 了 解 世界 和 改造 世界 所 起 到 的 作 
用 是 非常 有 限 的 ， 它 不 能 构成 人 们 决策 或 行动 的 可 靠 依据 。 

通过 对 数据 进行 分 析 ， 找 出 数据 之 间 所 隐 含 的 关系 ， 赋 予 数 据 以 某 种 意义 和 关联 ， 
就 形成 了 更 深层 次 的 信息 。 对 这 些 信 息 进 行 再 加 工 ， 即 进行 更 深入 的 归纳 分 析 ， 可 获得 
更 有 用 的 、 能 够 作为 判断 、 决 策 和 行动 依据 的 信息 ， 这 就 是 知识 。 人 们 总 是 依靠 知识 来 
进一步 有 效 地 认识 世界 和 改造 世界 。 图 1.1 显示 了 人 们 从 客观 世界 中 获取 知识 、 又 依靠 
知识 继续 认识 世界 的 循环 过 程 。 


知识 


图 1.1 数据 、 信 息 与 知识 


随 着 人 类 社会 活动 越 来 越 频繁 和 多 样 化 ， 人 们 积累 的 数据 和 信息 也 极度 增长 。 人 类 
近 30 年 所 掌握 的 信息 量 占有 史 以 来 积累 总 量 的 90%。 加 之 计算 机 网 络 的 发 展 ， 大 大 促 
进 了 数据 和 信息 的 流通 ， 使 得 21 世纪 成 为 了 信息 爆炸 的 时 代 。 

面 对 海 量 的 数据 ， 人 们 往往 束手无策 ， 逐 渐 陷 入 到 “丰富 的 数据 ”和 “贫乏 的 知识 ” 
这 个 篮 众 的 境地 中 。 如 何 从 大 量 的 数据 中 提取 知识 ， 是 人 们 目前 面临 的 一 个 挑战 。 
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为 了 充分 地 利用 数据 , 首先 必须 对 数据 进行 有 效 的 管理 , 这 样 就 产生 了 数据 库 技术 。 
数据 库 技术 可 以 使 人 们 有 条 理 地 记录 数据 ， 也 能 够 对 数据 进行 初步 的 分 析 和 加 工 。 随 着 
数据 量 的 增长 ， 多 数据 源 带 来 了 各 种 数据 格式 不 相 容 的 问题 。 为 了 便于 获得 决策 所 需 的 
信息 , 就 有 必要 将 不 同 格式 的 数据 以 统一 的 形式 集中 存储 在 一 起 , 这 就 形成 了 数据 仓库 。 

同时 ， 针 对 数据 的 复杂 化 和 海量 化 ， 在 数据 分 析 上 也 需要 效率 更 高 、 理 论 更 完善 的 
方法 和 工具 。 多 年 来 ， 数 理 统计 方法 以 及 人 工 智能 和 知识 工程 等 领域 的 研究 成 果 ， 诸 如 
推理 、 机 器 学 习 、 知 识 获取 、 模 糊 理论 、 神 经 网 络 、 遗 传 算法 、 模 式 识别 、 粗 糙 集 理论 、 
支持 向 量 机 理论 等 诸多 研究 分 支 ， 为 开发 对 数据 进行 深度 分 析 的 工具 提供 了 坚实 而 丰富 
的 理论 和 技术 基础 。 数 据 挖 掘 理论 与 技术 应 运 而 生 。 


数据 挖 据 (Data Mining )， 又 称 为 数据 库 知识 发 现 (Knowledge Discovery from 
Database，KDD)， 它 是 一 个 从 大 量 数 据 中 提取 、 挖 掘 出 未 知 的 、 有 价值 的 模式 或 规律 等 
知识 的 复杂 过 程 。 它 通常 与 计算 机 科学 有 关 ， 并 通过 统计 、 在 线 分 析 处 理 、 情 报 检 索 、 
机 器 学 习 、 专 家 系统 (依靠 过 去 的 经 验 法 则 ) 和 模式 识别 等 诸多 方法 来 实现 上 述 目标 。 

简 而 言 之 ， 数 据 挖掘 其 实 是 一 类 深层 次 的 数据 分 析 方法 。 数 据 分 析 本 身 已 经 有 很 多 
年 的 历史 ， 但 由 于 以 前 计算 能 力 的 限制 ， 对 大 数据 量 进行 分 析 的 复杂 数据 分 析 方法 受到 
很 大 限制 。 现 在 ， 由 于 各 行业 业务 自动 化 的 实现 ， 产 生 了 大 量 的 业务 数据 。 同 时 ， 由 于 
计算 机 性 能 的 不 断 提高 ， 各 种 智能 分 析 理 论 的 日 趋 成 熟 ， 使 得 对 海量 数据 进行 分 析 ， 并 
为 决策 提供 真正 有 价值 的 信息 成 为 一 个 有 效 提高 企业 、 组 织 竞争 力 的 有 效 途 径 。 

因此 ， 数 据 挖 掘 可 以 描述 为 : 按 既 定 决策 目标 ， 对 大 量 的 数据 进行 探索 和 分 析 ， 揭 
示 隐 藏 的 、 未 知 的 或 验证 已 知 的 规律 性 ， 并 进一步 将 其 模型 化 的 先进 有 效 的 方法 。 

数据 挖掘 与 传统 的 数据 分 析 〈 如 查询 、 报 表 、 联 机 应 用 分 析 ) 又 有 本 质 区 别 。 数 据 
挖掘 是 在 没有 明确 假设 的 前 提 下 去 挖掘 信息 、 发 现 知识 。 同 时 ， 数 据 挖掘 所 得 到 的 信息 
应 具有 先前 未 知 、 有 效 和 可 实用 3 个 特征 。 先 前 未 知 的 信息 是 指 该 信息 是 预先 未 曾 预料 
到 的 ， 即 数据 挖掘 是 要 发 现 那些 不 能 靠 直觉 发 现 的 信息 或 知识 ， 甚 至 是 违背 直觉 的 信息 
或 知识 ， 挖 掘 出 的 信息 越 是 出 乎 意料 ， 反 而 可 能 越 有 价值 。 


1.2) 数据 挖掘 过 程 


数据 挖掘 是 通过 自动 或 半自动 化 的 工具 对 大 量 数 据 进行 探索 和 分 析 的 过 程 ， 其 目的 
是 发 现 其 中 有 意义 的 模式 和 规律 。 就 数据 挖掘 的 流程 来 看 ， 一 个 数据 挖掘 过 程 究竟 应 该 
包含 哪些 基本 的 步骤 ， 并 没有 一 个 统一 的 、 通 用 的 过 程 模型 。 这 方面 的 过 程 模型 较 多 ， 
比较 权威 的 有 SPSS 的 SA 法 ， 即 访问 〈Access)、 分 析 (Analyze)、 评 估 (Assess)、 行 
动 (Action)、 自动 化 (Automate); SAS 的 SEMMA 法 , 即 抽样 (Sample)、 探 索 (Explore)、 
建 模 (Model)、 修 正 (Modify)、 评 估 (Assess)。 

目前 ,数据 挖掘 领域 最 权威 的 过 程 模型 是 CRISP-DM 模型 ， 它 是 目前 事实 上 最 权威 
的 行业 标准 。CRISP-DM (Cross-Industry Standard Process for Data Mining)， 即 “跨行 业 


数据 挖掘 概述 


数据 挖掘 过 程 标准 ” 

在 1996 年 时 , 数据 挖掘 市 场 是 年 轻 而 不 成 熟 的 , 但 是 这 个 市 场 显示 了 爆炸 式 的 增长 。 
3 个 在 这 方面 经 验 丰富 的 公司 DaimlerChrysler、SPSS、NCR 发 起 建立 一 个 社团 ， 目 的 是 
建立 数据 挖掘 方法 和 过 程 的 标准 。 在 获得 了 EC (European Commission) 的 资助 后 ， 他 
们 开始 实现 他 们 的 目标 。 为 了 征集 业界 广泛 的 意见 共享 知识 ， 他 们 创建 了 CRISP-DM 
Special Interest Group 〈SIG ) 。 

1999 年 ，SIG 组 织 开发 并 提炼 出 CRISP-DM， 同 时 在 Mercedes-Benz 和 OHRA ( 保 
险 领域 ) 企业 进行 了 大 规模 数据 挖掘 项 目的 实际 试用 。SIG 还 将 CRISP-DM 和 商业 数据 
挖掘 工具 集成 起 来 。2000 年 ，CRISP-DM 1.0 版 正式 推出 ， 应 该 说 CRISP-DM 是 实际 项 
目的 经 验 总 结 和 理论 抽象 。CRISP-DM 强调 ， 数 据 不 单 是 数据 的 组 织 或 者 呈现 ， 也 不 仅 
是 数据 分 析 和 统计 建 模 ， 而 是 一 个 从 理解 业务 需求 、 寻 求解 决 方案 到 接受 实践 检验 的 完 
整 过 程 。 通 过 不 断 的 发 展 ，CRISP-DM 模型 在 各 种 KDD 过 程 模型 中 占据 领先 位 置 ， 采 
用 率 达 到 近 60% (Cios and Kurgan, Trends in data mining and kmowledge discovery, 2005 )。 

CRISP-DM 模型 定义 了 6 个 阶段 ， 分 别 是 : 商业 理解 (Business Understanding)、 数 
据 理解 (Data Understanding)、 数 据 准备 〈Data Preparation )、 建 立 模型 (Modeling)、 模 
型 评估 “(Evaluation)、 结 果 部 署 (Deployment)。 

CRISP-DM 模型 如 图 1.2 所 示 。 


1.2 ”CRISP-DM 模型 


CRISP-DM 模型 为 一 个 KDD 工程 提供 了 一 个 完整 的 过 程 描述 。 一 个 数据 挖掘 项 目 
的 生命 周期 包含 6 个 阶段 。 这 6 个 阶段 的 顺序 是 不 固定 的 , 经 常 需要 前 后 调整 这 些 阶段 ， 
这 依赖 每 个 阶段 或 是 阶段 中 特定 任务 的 产 出 物 是 否 是 下 一 个 阶段 必需 的 输入 。 图 1.2 中 
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箭头 指出 了 最 重要 的 和 依赖 度 高 的 阶段 关系 。 

图 1.2 的 外 圈 象 征 数据 挖掘 自身 的 循环 本 质 一 一 在 一 个 解决 方案 发 布 之 后 一 个 数据 
挖掘 的 过 程 才 可 以 继续 。 在 这 个 过 程 中 得 到 的 知识 可 以 触发 新 的 过 程 ， 经 常 是 更 聚焦 的 
商业 问题 。 后 续 的 过 程 可 以 从 前 一 个 过 程 得 到 益处 。 


1. 商业 理解 (Business Understanding) 


最 初 的 阶段 集中 在 理解 项 目 目标 和 从 业务 的 角度 理解 需求 ， 同 时 将 这 个 知识 转化 为 
数据 挖掘 问题 的 定义 和 完成 目标 的 初步 计划 。 


2. 数据 理解 (Data Understanding) 


数据 理解 阶段 从 初始 的 数据 收集 开始 ， 通 过 一 些 活动 的 处 理 ， 目 的 是 熟悉 数据 ， 识 
别 数据 的 质量 问题 ， 首 次 发 现 数据 的 内 部 属性 ， 或 是 探测 引起 兴趣 的 子 集 去 形成 隐 含 信 
息 的 假设 。 


3. 数据 准备 〈Data Preparation ) 


数据 准备 阶段 包括 从 未 处 理 的 数据 中 构造 最 终 数据 集 的 所 有 活动 。 这 些 数据 将 是 模 
型 工具 的 输入 值 。 这 个 阶段 的 任务 有 的 需要 执行 多 次 ， 没 有 任何 规定 的 顺序 。 任 务 包括 
表 、 记 录 和 属性 的 选择 ， 以 及 为 模型 工具 转换 和 清洗 数据 。 


4. 建立 模型 (Modeling) 


在 这 个 阶段 ， 可 以 选择 和 应 用 不 同 的 模型 技术 ， 模 型 参数 被 调整 到 最 佳 的 数值 。 一 
般 ， 有 些 技术 可 以 解决 一 类 相同 的 数据 挖掘 问题 。 有 些 技术 在 数据 形成 上 有 特殊 要 求 ， 
因此 需要 经 常 跳 回 到 数据 准备 阶段 。 


5. 模型 评估 (Evaluation ) 


到 项 目的 这 个 阶段 ， 已 经 从 数据 分 析 的 角度 建立 了 一 个 高 质量 的 模型 。 在 开始 最 后 
部 署 模 型 之 前 ， 需 要 彻底 地 评估 模型 ， 检 查 构造 模型 的 步骤 ， 确 保 模型 可 以 完成 业务 目 
标 。 这 个 阶段 的 关键 目的 是 确定 是 否 有 重要 业务 问题 没有 被 充分 的 考虑 。 在 这 个 阶段 结 
束 后 ， 将 决定 一 个 数据 挖掘 结果 是 否 可 以 付 诸 使 用 。 


6. 结果 部 署 (Deployment) 


通常 ， 模 型 的 创建 不 是 项 目的 结束 。 模 型 的 作用 是 从 数据 中 找到 知识 ， 获 得 的 知识 
需要 以 便于 用 户 使 用 的 方式 重新 组 织 和 展现 。 根据 需求 , 这 个 阶段 可 以 产生 简单 的 报告 ， 
或 是 实现 一 个 比较 复杂 的 、 可 重复 的 数据 挖掘 过 程 。 在 很 多 案例 中 ， 这 个 阶段 是 由 客户 
而 不 是 数据 分 析 人 员 承 担 部 署 的 工作 。 

需要 注意 的 是 ， 以 上 6 个 步骤 并 非 完全 按照 此 顺序 来 执行 。 在 应 用 中 ， 应 该 针对 不 
同 的 应 用 环境 和 实际 情况 做 出 必要 的 调整 。 例 如 ， 数 据 准 备 通常 在 建 模 之 前 进行 。 但 在 
建 模 阶段 所 作 的 决策 以 及 所 收集 的 信息 通常 又 会 给 人 们 一 些 反 馈 ， 并 引导 人 们 重新 考虑 
数据 准备 阶段 的 部 分 ， 如 此 一 来 可 能 会 出 现 新 的 建 模 问题 。 这 两 个 阶段 互相 反馈 ， 直 到 
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两 个 阶段 都 得 以 充分 解决 。 与 之 相似 ， 评 估 过 程 可 能 会 引导 人 们 重新 评估 最 初 的 商业 理 
解 ， 这 时 ， 可 能 会 修正 此 前 的 商业 理解 ， 并 制订 一 个 更 好 的 目标 ， 然 后 重新 进行 该 过 程 
的 其 余部 分 。 

另外 ， 一 个 数据 挖掘 项 目 通常 并 不 是 一 次 性 地 执行 了 上 述 6 个 步骤 就 结束 了 ， 它 往 
往 是 一 个 反复 迭代 、 不 断 完 善 的 过 程 。 从 一 个 数据 挖掘 循环 获得 的 知识 几乎 无 所 例外 地 
会 导致 新 的 问题 、 新 的 争论 以 及 新 的 机 会 来 识别 和 满足 客户 的 需求 。 这 些 新 问题 、 新 争 
论 和 新 机 会 通常 可 以 通过 再 次 挖掘 数据 得 以 解决 。 这 个 挖掘 和 识别 新 机 会 的 过 程 不 仅 应 
该 成 为 人 们 考虑 业务 的 方式 的 组 成 部 分 ， 还 应 该 成 为 整个 业务 策略 的 基石 。 


1.3) 数据 挖掘 方法 


数据 挖掘 所 涉及 的 学 科 领 域 和 方法 很 多 ， 目 前 比较 成 熟 且 应 用 广泛 的 方法 主要 有 分 
类 方法 、 聚 类 分 析 、 关 联 规则 分 析 、 异 常 检测 、 预 测 方法 等 。 


1. 分 类 


分 类 (Classification) 是 一 种 数据 分 析 形 式 ， 它 可 以 用 来 抽取 能 够 描述 重要 数据 集合 
的 模型 。 分 类 方法 用 于 预测 数据 对 象 的 离散 类 别 (Categorical Label)。 例 如 ， 根 据 一 个 
客户 的 “年 龄 有 “性 别 ”” “职业” “收入 情况 ”等 属性 的 取 值 ， 来 判定 该 客户 “信用 等 
级 ”的 取 值 是 “ 优 ”“ 良 ”或 者 “ 差 ” 这 就 是 一 个 典型 的 分 类 问题 。 

分 类 技术 在 很 多 领域 都 有 应 用 ， 例 如 可 以 通过 客户 分 类 构造 一 个 分 类 模型 来 对 银行 
贷款 进行 风险 评估 ; 当前 的 市 场 营销 中 很 重要 的 一 个 特点 是 强调 客户 细 分 。 客 户 类 别 分 
析 的 功能 也 在 于 此 ， 采 用 数据 挖掘 中 的 分 类 技术 ， 可 以 将 客户 分 成 不 同 的 类 别 ， 比 如 呼 
叫 中 心 在 设计 时 可 以 分 为 : 呼叫 频繁 的 客户 、 偶 然 大 量 呼叫 的 客户 、 稳 定 呼 叫 的 客户 、 
其 他 。 这 样 就 可 以 帮助 呼叫 中 心 寻 找 出 这 些 不 同 种 类 客户 之 间 的 特征 。 这 样 的 分 类 模型 
可 以 让 用 户 了 解 不 同行 为 类 别 客户 的 分 布 特征 ;其 他 分 类 应 用 如 文献 检索 和 搜索 引擎 中 
的 自动 文本 分 类 技术 ， 安 全 领域 有 基于 分 类 技术 的 入 侵 检测 等 。 机 器 学 习 、 专 家 系统 、 
统计 学 和 神经 网 络 等 领域 的 研究 人 员 已 经 提出 了 许多 具体 的 分 类 方法 。 

本 书 第 3 章 介绍 了 决策 树 分 类 方法 , 以 及 用 来 实现 决策 树 方法 的 几 种 算法 ,包括 ID3、 
C4.5、C5.0、CART 算法 。 


2. 聚 类 分 析 


聚 类 分 析 是 根据 “ 物 以 类 聚 ” 的 道理 ， 对 样本 进行 分 类 的 一 种 多 元 统计 分 析 方 法 ， 
其 处 理 的 对 象 是 大 量 的 样本 ， 要 求 能 合理 地 按 各 自 的 特性 来 进行 合理 的 分 类 ， 没 有 任何 
模式 可 供 参考 和 指导 ， 即 是 在 没有 先 验 知识 的 情况 下 进行 的 。 聚 类 分 析 起 源 于 分 类 学 ， 
在 古老 的 分 类 学 中 ， 人 们 主要 依靠 经 验 和 专业 知识 来 实现 分 类 ， 很 少 利 用 数学 工具 进行 
定量 的 分 类 。 随 着 人 类 科学 技术 的 发 展 ， 对 分 类 的 要 求 越 来 越 高 ， 以 致 有 时 仅 赁 经 验 和 
专业 知识 难以 确切 地 进行 分 类 ， 于 是 人 们 逐渐 地 把 数学 工具 引用 到 了 分 类 学 中 ， 形 成 了 
数值 分 类 学 ， 之 后 又 将 多 元 分 析 的 技术 引入 到 数值 分 类 学 形成 了 聚 类 分 析 。 

聚 类 是 将 数据 划分 到 不 同 的 类 或 者 能 这 样 的 一 个 过 程 ， 所 以 同一 个 马 中 的 对 象 有 很 
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大 的 相似 性 ， 而 不 同 簇 间 的 对 象 有 很 大 的 相 异 性 。 聚 类 分 析 之 后 所 得 到 的 类 或 者 簇 在 事 
先是 不 知道 的 ， 这 也 是 聚 类 和 分 类 之 间 的 主要 区 别 ， 即 分 类 是 有 先 验 知识 指导 的 ， 而 聚 
类 没有 先 验 知识 的 指导 。 

聚 类 分 析 被 应 用 于 很 多 方面 ， 在 商业 上 ， 聚 类 分 析 被 用 来 发 现 不 同 的 客户 群 ， 并 且 
通过 购买 模式 刻画 不 同 的 客户 群 的 特征 ; 在 生物 上 ， 聚 类 分 析 被 用 于 动 植物 分 类 和 对 基 
因 进 行 分 类 ， 获 取 对 种 群 固有 结构 的 认识 ; 在 因特网 应 用 上 ， 聚 类 分 析 被 用 来 在 网 上 进 
行文 档 归 类 来 修复 信息 。 

本 书 第 4 章 介绍 了 聚 类 分 析 方法 , 以 及 用 来 实现 聚 类 的 分 析 方 法 人 -Means 和 TwoStep 
算法 。 另 外 ， 在 第 8 章 中 介绍 的 Kohonen 网 络 也 可 以 用 于 聚 类 分 析 。 


3. 关联 规则 分 析 


关联 规则 挖掘 是 由 Rakesh Apwal 等 人 首先 提出 的 。 两 个 或 两 个 以 上 变量 的 取 值 之 间 
存在 某 种 规律 性 ， 就 称 为 关联 。 数 据 关联 是 数据 库 中 存在 的 一 类 重要 的 、 可 被 发 现 的 知 
识 。 关 联 分 为 简单 关联 、 时 序 关 联 和 因果 关联 。 把 寻找 到 的 关联 用 指定 的 规则 方式 表达 
出 来 ， 就 形成 了 关联 规则 ， 一 般 用 支持 度 和 置信 度 两 个 阅 值 来 度量 关联 规则 的 相关 性 ， 
还 不 断 引入 兴趣 度 、 相 关 性 等 参数 ， 使 得 所 挖掘 的 规则 更 符合 需求 。 

例如 关联 规则 : 牛奶 人 果冻 党 花 生效 [support=22%, confidence=50%], 表示 有 22% 
的 顾客 同时 购买 了 牛奶 和 果冻 ， 这 些 顾 客 中 有 50% 还 同时 购买 了 花生 效 。 

通俗 地 说 ， 对 于 一 个 关系 型 数据 表 而 言 ， 关 联 规则 分 析 就 是 要 找到 潜藏 在 数据 集中 
属性 〈 字 段 ) 之 间 的 关系 。 关 联 规则 分 析 是 一 种 无 监督 学 习 ， 即 没有 先 验 知识 指导 下 的 
分 析 方法 。 

“啤酒 与 尿布 ”是 我 们 耳熟能详 的 故事 ， 这 就 是 一 个 经 典 的 关联 规则 分 析 过 程 。 通 过 
对 超市 购物 数据 集 的 挖 气 ， 发 现年 轻 的 父亲 在 给 自己 的 婴儿 购买 尿布 时 会 撒 带 着 为 自己 
购买 几经 啤酒 ， 这 一 规则 使 得 超市 可 以 将 尿布 和 啤酒 的 货架 放 在 一 起 ， 或 者 将 两 者 捆绑 
销售 。 正 因为 如 此 ， 关 联 规则 分 析 有 时 也 被 称 为 “购物 篮 分 析 ”。 显 然 ， 关 联 规则 分 析 并 
不 仅仅 限于 购物 篮 分 析 。 

序列 模式 可 以 看 做 一 种 特殊 的 关联 规则 。 序列 模式 挖掘 的 目的 是 要 找 出 类 似 于 “5% 
的 客户 先 买 床 ， 再 买 床 热 ， 最 后 买 枕头 ”这 样 的 规律 。 显 然 ， 序 列 模式 挖掘 的 侧重 点 是 
事件 发 生 的 先后 次 序 。 序 列 模式 在 Web 使 用 挖 据 (Web Usage Mining) 中 也 是 非常 有 用 
的 ， 比 如 用 来 分 析 在 服务 器 日 志 中 的 点 击 流 (Clickstreams)。 

本 书 第 5 章 介 绍 了 关联 规则 分 析 方 法 ， 以 及 用 来 实现 关联 规则 分 析 的 Apriori 算法 、 
CARMA 算法 以 及 序列 模式 挖掘 算法 。 


4. 异常 检测 


任何 事物 的 发 展 与 变化 都 有 其 必然 性 和 偶然 性 。 有 些 情 况 下 ， 我 们 的 研究 重点 并 非 
要 挖掘 出 具有 普遍 性 和 通用 性 的 规律 ， 而 在 于 隐藏 在 数据 中 的 异常 信息 〈outlier)。 例 如 
在 某 个 季节 里 ， 某 一 天 的 气温 很 高 或 很 低 ， 这 个 温度 数据 就 是 一 个 异常 。 有 时 候 异 常 信 
息 更 能 反映 出 事物 的 本 质 规律 。 

异常 是 在 数据 集中 与 众 不 同 的 数据 ， 使 人 怀疑 这 些 数据 并 非 随机 偏差 ， 而 是 产生 于 


数据 挖掘 概述 


完全 不 同 的 机 制 。 它 的 行为 与 正常 的 行为 有 显著 的 不 同 。 异 常 检测 和 分 析 是 数据 挖掘 中 
一 个 重要 的 方面 ， 也 是 一 个 非常 有 意义 的 挖掘 课题 。 它 用 来 发 现 “小 的 模式 ”， 即 数据 集 
中 显著 不 同 于 其 他 数据 的 对 象 。 异常 检测 具有 广泛 的 应 用 ， 如 电信 和 信用 卡 欺骗 、 贷 款 
审批 、 药 物 研究 、 医 疗 分 析 、 消 费 者 行为 分 析 、 气 象 预报 、 金 融 领 域 客户 分 类 、 网 络 入 
侵 检 测 等 。 

异常 检测 的 方法 大 致 可 以 分 为 4 类 : 基于 统计 (statistical-based) 的 方法 、 基 于 距离 
(distance-based) 的 方法 、 基 于 偏差 (deviation-based) 的 方法 、 基 于 密度 (density-based) 
的 方法 。 

本 书 第 6 章 介绍 了 异常 检测 的 相关 内 容 和 实现 算法 。 

5. 预测 


预测 就 是 根据 历史 数据 和 当前 数据 来 推测 出 未 来 数据 的 一 种 挖掘 方法 .和 分 类 一 样 ， 
预测 也 是 一 种 有 指导 的 学 习 过 程 。 不 同 的 是 ， 分 类 用 于 处 理 离散 型 数据 ， 而 预测 用 于 分 
析 连 续 型 数据 。 从 这 个 意义 上 来 讲 ， 很 多 数据 挖掘 方法 都 可 以 划 归 到 预测 方法 中 ， 例 如 
回归 分 析 、 神 经 网 络 、 时 间 序 列 分 析 等 。 

回归 分 析 (Regression Analysis) 是 确定 两 个 或 两 个 以 上 变量 间 相 互 依赖 的 定量 关系 
的 一 种 统计 分 析 方 法 ， 应 用 十 分 广泛 。 按 照 涉 及 的 自 变量 的 多 少 ， 回 归 分 析 可 分 为 一 元 
回归 分 析 和 多 元 回归 分 析 ; 按照 自 变量 和 因 变 量 之 间 的 关系 类 型 ， 可 分 为 线性 回归 分 析 


神经 网 络 是 依据 人 类 大 脑 信息 处 理 的 特点 ， 进 行 分 布 式 并 行 信息 处 理 的 数学 模型 。 
这 种 网 络 依靠 系统 的 复杂 程度 ， 通 过 调整 内 部 大 量 节 点 之 间 相 互 连 接 的 关系 ， 从 而 达到 
处 理 信息 的 目的 。 神 经 网 络 具有 自学 习 功 能 、 联 想 存储 功能 和 高 速 寻找 优化 解 的 能 力 ， 
在 经 济 预测 、 市 场 预 测 、 效 益 预 测 等 领域 具有 良好 的 预测 效果 。 本 书 第 8 章 介绍 了 多 层 
感知 器 与 RBF 网 络 两 种 预测 型 的 神经 网 络 。 

时 间 序 列 分 析 是 根据 系统 观测 得 到 的 时 间 序 列 数据 ， 通 过 曲线 拟 合 和 参数 估计 来 建 
立 数学 模型 的 理论 和 方法 。 其 基本 原理 是 承认 事物 发 展 的 延续 性 ， 应 用 过 去 的 数据 ， 就 
能 推测 事物 的 发 展 趋势 ， 同 时 考虑 到 事物 发 展 的 随机 性 。 时 间 序 列 分 析 常 用 在 国民 经 济 
宏观 控制 、 区 域 综合 发 展 规划 、 企 业经 营 管理 、 市 场 潜 量 预测 、 气 象 预报 、 水 文 预报 、 
地 震 前 兆 预 报 、 农 作物 病 虫 灾 害 预 报 、 环 境 污染 控制 、 生 态 平衡 、 天 文学 和 海洋 学 等 方 
面 。 本 书 第 9 章 介绍 了 指数 平滑 法 、ARIMA 模型 等 时 间 序 列 预测 方法 。 


UL 数据 挖掘 工具 及 软件 


古人 云 :“ 工 欲 善 其 事 ， 必 先 利 其 器 ”， 说 的 是 要 想 把 工作 完成 ， 做 得 完善 ， 应 该 先 
把 工具 准备 好 。 数 据 挖掘 所 处 理 的 往往 是 海量 的 数据 集 ， 没 有 高 效 的 挖掘 工具 和 软件 是 
难以 实现 的 。 

数据 挖掘 工具 根据 其 适用 的 范围 可 分 为 专用 挖掘 工具 和 通用 挖掘 工具 。 

专用 数据 挖掘 工具 是 针对 某 个 特定 领域 的 问题 提供 解决 方案 ， 在 涉及 算法 的 时 候 充 
分 考虑 了 数据 、 需 求 的 特殊 性 ， 并 作 了 优化 。 对 任何 领域 ， 都 可 以 开发 特定 的 数据 挖掘 
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工具 。 例 如 ，IBM 公司 的 AdvancedScout 系统 针对 美国 职业 篮球 联赛 (NBA) 的 数据 ， 
帮助 教练 优化 战术 组 合 。 特 定 领 域 的 数据 挖掘 工具 针对 性 比较 强 ， 只 能 用 于 一 种 应 用 。 
也 正 因为 针对 性 强 ， 往 往 采用 特殊 的 算法 ， 可 以 处 理 特 殊 的 数据 ， 实 现 特殊 的 目的 ， 发 
现 的 知识 可 靠 度 也 比较 高 。 

通用 数据 挖掘 工具 不 区 分 具体 数据 的 含义 ， 采 用 通用 的 挖掘 算法 ， 处 理 常 见 的 数据 
类 型 。 例 如 ，IBM 公司 Almaden 研究 中 心 开发 的 QUEST 系统 ，SGI 公司 开发 的 MineSet 
系统 ， 加 拿 大 SimonFraser 大 学 开发 的 DBMiner 系统 ，SPSS 公司 的 Clementine 等 。 通用 
的 数据 挖掘 工具 可 以 做 多 种 模式 的 挖掘 ， 挖 掘 什 么 、 用 什么 来 挖掘 都 由 用 户 根据 自己 的 
应 用 来 选择 。 

下 面 介绍 几 款 优秀 的 通用 数据 挖掘 工具 软件 。 


1. QUEST 


QUEST 是 IBM 公司 Almaden 研究 中 心 开发 的 一 个 多 任务 数据 挖掘 系统 ， 目 的 是 为 
新 一 代 决 策 支 持 系统 的 应 用 开发 提供 高 效 的 数据 挖掘 基本 构件 。 该 系统 具有 如 下 特点 : 

@ 提供 了 专门 在 大 型 数据 库 上 进行 各 种 挖掘 的 功能 :关联 规则 发 现 ,序列 模式 发 现 、 
时 间 序 列 、 聚 类 、 决 策 树 分 类 、 递 增 式 主动 挖掘 等 。 

@ 各 种 挖掘 算法 具有 近似 线性 计算 复杂 度 , 可 适用 于 任意 大 小 的 数据 库 。 算法 具有 
找 全 性 ， 即 能 将 所 有 满足 指定 类 型 的 模式 全 部 寻找 出 来 。 

@ 为 各 种 发 现 功能 设计 了 相应 的 并 行 算法 。 


2. MineSet 


MineSet 是 由 SGI 公司 和 美国 Standford 大 学 联合 开发 的 多 任务 数据 挖掘 系统 。 
MineSet 集成 多 种 数据 挖掘 算法 和 可 视 化 工具 ， 帮 助 用 户 直 观 地 、 实 时 地 发 掘 、 理 解 大 
量 数据 背后 的 知识 。MineSet 有 如 下 特点 : 

@ MineSet 以 先进 的 可 视 化 显示 方法 闻名 于 世 。 

@ 支持 多 种 关系 数据 库 。 可 以 直接 从 Oracle、Informix、Sybase 的 表 读 取 数 据 ， 也 
可 以 通过 SQL 命令 执行 查询 。 

@ 多 种 数据 转换 功能 。 在 进行 挖掘 前 ，MineSet 可 以 去 除 不 必要 的 数据 项 ， 统 计 、 
集合 、 分 组 数据 ， 转 换 数 据 类 型 ， 构 造 表达 式 由 已 有 数据 项 生成 新 的 数据 项 ， 对 数据 采 
样 等 。 

@ 操作 简单 、 支 持 国 际 字符 、 可 以 直接 发 布 到 Web。 

3. DBMiner 


DBMiner 是 加 拿 大 SimonFraser 大 学 开发 的 一 个 多 任务 数据 挖掘 系统 ， 它 的 前 身 是 
DBLeam。 该 系统 设计 的 目的 是 把 关系 数据 库 和 数据 开采 挖掘 集成 在 一 起 ， 以 面向 属性 
的 多 级 概念 为 基础 发 现 各 种 知识 。DBMiner 系统 具有 如 下 特色 : 

外 能 完成 多 种 知识 的 发 现 : 泛 化 规则 、 特 性 规则 、 关 联 规则 、 分 类 规则 、 演 化 知识 、 
异常 知识 等 。 

@ 综合 了 多 种 数据 挖掘 技术 : 面向 属性 的 归纳 、 统 计 分 析 、 逐 级 深化 发 现 多 级 规则 、 
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元 规则 引导 发 现 等 方法 。 
@ 提出 了 一 种 交互 式 的 类 SQL 语言 一 -数据 挖掘 查询 语言 DMQL 。 
@ 能 与 关系 数据 库 平滑 集成 。 
@ 实现 了 基于 客户 -服务 器 体系 结构 的 UNIX 和 PC (Windows/NT) 版 本 的 系统 。 


4. Intelligent Miner 


由 美国 IBM 公司 开发 的 数据 挖掘 软件 Intelligent Miner 是 一 种 分 别 面向 数据 库 和 文 
本 信息 进行 数据 挖掘 的 软件 系列 , 它 包 括 Intelligent Miner for Data 和 Intelligent Miner for 
Text。Intelligent Miner for Data 可 以 挖掘 包含 在 数据 库 、 数 据 仓 库 和 数据 中 心中 的 隐 含 信 
息 ， 帮 助 用 户 利用 传统 数据 库 或 普通 文件 中 的 结构 化 数据 进行 数据 挖掘 。 它 已 经 成 功 应 
用 于 市 场 分 析 、 诈骗 行 为 监测 及 客户 关系 管理 等 ，Intelligent Miner for Text 允许 企业 通过 
文本 信息 进行 数据 挖掘 , 文本 数据 源 可 以 是 文本 文件 、Web 页 面 、 电 子 邮 件 、Lotus Notes 
数据 库 等 。 

5. SAS Enterprise Miner 


这 是 一 种 在 我 国 的 企业 中 得 到 采用 的 数据 控 气 工具， 比较 典型 的 包括 上 海宝 钢 配 矿 
系统 应 用 和 铁路 部 门 在 春运 客运 研究 中 的 应 用 。SAS Enterprise Miner 是 一 种 通用 的 数据 
挖掘 工具 ， 按 照 “ 抽 样 -探索 -转换 - 建 模 - 评 估 ” 的 方法 进行 数据 挖掘 。 可 以 与 SAS 数据 
仓库 和 OLAP 集成 ， 实 现 从 提出 数据 、 抓 住 数据 到 得 到 解答 的 “ 端 到 端 ” 知 识 发 现 。 


6. SPSS Clementine 


SPSS Clementine 是 一 个 开放 式 数 据 挖 掘 工 具 , 曾 两 次 获得 英国 政府 SMART 创新 奖 ， 
它 不 但 支持 整个 数据 挖掘 流程 ， 从 数据 获取 、 转 化 、 建 模 、 评 估 到 最 终 部 署 的 全 部 过 程 ， 
还 支持 数据 挖掘 的 行业 标准 一 一 CRISP-DM。Clementine 的 可 视 化 数据 挖掘 使 得 “思路 ” 
分 析 成 为 可 能 ， 即 将 精力 集中 在 要 解决 的 问题 本 身 ， 而 不 是 局 限于 完成 一 些 技术 性 工作 
(比如 编写 代码 )。 提 供 了 多 种 图 形 化 技术 ， 有 助理 解数 据 间 的 关键 性 联系 ， 指 导 用 户 以 
最 便捷 的 途径 找到 问题 的 最 终 解决 办 法 。 

本 书 采用 Clementine 12.0 为 数据 挖掘 工具 ， 重 点 介绍 了 Clementine 的 用 法 。 在 每 章 
介绍 了 相关 的 数据 挖掘 算法 之 后 ， 通 过 实例 前 述 了 利用 Clementine 进行 数据 挖掘 的 详细 
过 程 。 


第 2 普 ”Clementine 概述 


Clementine 是 ISL (Integral Solutions Limited) 公司 开发 的 数据 挖掘 工具 平台 。1999 
年 SPSS 公司 收购 了 ISL 公司 , 对 Clementine 产品 进行 重新 整合 和 开发 , 现在 Clementine 
已 经 成 为 SPSS 公司 的 又 一 亮点 。 目 前 ，Clementine 已 经 发 展 到 13.0 版 本 ，SPSS 公司 将 
其 更 名 为 PASW Modeler， 但 由 于 “Clementine” 一 词 在 数据 挖掘 领域 已 经 深入 人 心 ， 故 
本 书 仍然 沿用 这 一 名 称 。 

作为 一 个 数据 挖掘 平台 ，Clementine 结合 商业 技术 可 以 快速 建立 预测 性 模型 ， 进 而 
应 用 到 商业 活动 中 ， 帮 助人 们 改进 决策 过 程 。 强 大 的 数据 挖掘 功能 和 显著 的 投资 回报 率 
使 得 Clementine 在 业界 久 负 盛 誉 。Clementine 中 功能 强大 的 数据 挖掘 算法 ， 使 数据 挖掘 
贯穿 业务 流程 的 始终 ， 在 缩短 投资 回报 周期 的 同时 极 大 地 提高 了 投资 回报 率 。 


(2.1) Clementine 简介 


Clementine 使 用 客户 端 /服务 器 体系 结构 将 资源 集约 型 操作 的 请 求 分 发 给 功能 强大 的 
服务 器 软件 ， 因 而 使 大 数据 集 的 传输 速度 大 大 加 快 。 

Clementine Client 是 具有 完整 功能 的 产品 ， 它 安装 并 运行 于 用 户 的 计算 机 上 。 它 既 
可 以 在 本 机 模式 下 独立 运行 ， 也 可 以 与 Clementine Server 一 起 联机 使 用 ， 从 而 提高 了 对 
大 数据 集 的 处 理 速度 。 通 常 ， 数 据 挖掘 人 员 可 以 通过 客户 端 软件 来 完成 所 有 的 工作 。 因 
此 ， 本 书 仅 介 绍 Clementine 客户 端 ， 且 后 续 章节 中 的 所 有 示例 均 在 Clementine 12.0 中 
执行 。 

Clementine 自 带 有 丰富 的 说 明文 档 。 安 装 Clementine 12.0 之 后 ， 可 以 通过 Windows 
“开始 ”一 SPSS Inc 一 Clementine 12.0 一 Documentation 级 联 菜单 进入 存放 文档 的 目录 。 这 
些 文档 是 应 用 Clementine 时 的 重要 参考 资料 ， 包 括 : 

ClementineUsersGuide pdf: Clementine 的 一 般 使 用 介绍 ， 包 括 如 何 构 建 数 据 流 、 处 
理 缺 失 值 、 生 成 CLEM 表达 式 、 处 理 项 目 和 报告 以 及 将 用 于 部 署 的 流 打 包 为 SPSS 
Predictive Enterprise Services 或 预测 应 用 程序 。 

ClementineSourceProcessOutputNodes pdf: 介绍 用 于 以 不 同 的 格式 读 取 、 处 理 和 输出 
数据 的 所 有 节点 。 

ClementineModelingNodes.pdf: Clementine 提供 了 各 种 借助 机 器 学 习 、 人 工 智 能 和 统 
计 学 的 建 模 方法 。 

ClementineApplicationsGuide pdf: 该 指南 中 的 示例 旨 在 为 具体 的 建 模 方法 和 技术 提 
供 具 有 针对 性 的 简介 。 用 户 也 可 以 在 “帮助 ”菜单 中 查阅 该 指南 的 在 线 版 本 。 

ClementineScriptingAutomation.pdf: 通过 编写 脚本 和 执行 批 处 理 模 式 实现 系统 自动 
化 的 相关 信息 ， 包 括 用 于 操作 节点 和 流 的 属性 信息 。 

ClementineCLEFReference.pdf: CLEF 提供 了 将 第 三 方程 序 〈 例 如 ， 数 据 处 理 例 程 
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或 建 模 算法 ) 作为 节点 集成 到 Clementine 的 功能 。 

ClementineDatabaseMiningGuide pdf: 有 关 如 何 利 用 数据 库 的 功能 通过 第 三 方 算法 来 
改进 性 能 并 增强 分 析 功 能 的 信息 。 

ClementineServerandPerformanceGuide.pdf: 有 关 如 何 配 置 和 管理 Clementine Server 
的 信息 。 

ClementineAlgorithmsGuide.pdf: 介绍 Clementine 中 所 用 建 模 方法 的 数学 基础 。 

ClementineSolutionPublisher.pdf: Clementine Solution Publisher 是 一 个 附加 式 组 件 ， 
通过 它 组 织 可 发 布 在 标准 Clementine 环境 之 外 使 用 的 流 。 

CRISP-DM.pdf: 借助 CRISP-DM 方法 进行 数据 挖掘 的 分 步 指南 。 

SPSSCommandSyntaxReference pdf: SPSS 命令 语法 的 文档 (可 通过 Clementine 中 
的 SPSS 转换 和 SPSS 输出 节点 获取 )。 


2.2) Clementine 基本 操作 


通过 Windows“ 开 始 ” 一 SPSS Inc 一 Clementine 12.0 一 Clementine 12.0 级 联 菜单 ， 可 
以 打开 Clementine 12.0 的 主 窗口 ， 如 图 2.1 所 示 。 


舍 流 1* - Cleaentine 12.0 加 [SB 
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图 2.1 Clementine 主 窗口 
主 窗口 中 主要 包括 数据 流 区 域 、 选 项 板 区 、 管 理 器 窗口 、 工 程 管 理 区 。 
1. 数据 流 区 域 
Clementine 在 进行 数据 挖掘 时 是 基于 数据 流 形式 的 ， 从 读 入 数据 到 最 后 的 结果 显示 


x 
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都 是 通过 流程 图 的 形式 显示 在 数据 流 区 域内 。 数 据 流 〈stream) 由 一 系列 的 节点 构成 ， 
每 个 节点 代表 了 对 数据 的 某 种 处 理 ， 节 点 之 间 通 过 有 方向 的 箭头 连接 。 因 此 ， 将 各 种 操 
作 节 点 组 合 在 一 起 便 形成 了 一 条 通 向 目标 的 路 径 。 

数据 流 区 域 是 整个 操作 界面 中 最 大 的 部 分 ， 整 个 建 模 过 程 以 及 对 模型 的 操作 都 将 在 
这 个 区 域内 执行 。 可 以 通过 “文件 ”一 “新 建 流 ” 菜 单 新 建 一 个 空白 的 数据 流 ， 也 可 以 
打开 已 有 的 数据 流 。 所 有 在 一 个 运行 期 内 打开 的 数据 流 都 将 保存 在 管理 器 窗口 的 “ 流 ” 
标签 下 。 


2. 选项 板 区 


选项 板 区 横 跨 于 Clementine 操作 界面 的 下 部 ， 它 被 分 为 收藏 夹 、 源 、 记 录 选 项 、 字 
段 选项 、 图 形 、 建 模 、 输 出 、 导 出 8 个 栏目 ， 其 中 每 个 栏目 包含 了 具有 相关 功能 的 节点 。 

节点 是 数据 流 的 基本 组 成 部 分 ， 每 一 个 节点 拥有 不 同 的 数据 处 理 功能 。 设 置 不 同 的 
栏 是 为 了 将 不 同 功 能 的 节点 分 组 ， 下 面 介绍 各 个 栏 的 作用 。 

收藏 夹 : 该 栏 放 置 了 用 户 经 常 使 用 的 节点 ， 方 便 用 户 操作 。 用 户 可 以 自 定义 其 收藏 
夹 栏 ， 操 作 方 法 为 ， 选 中 菜单 栏 的 “工具 ”一 “管理 选项 板 ” 子 菜单 ， 在 弹出 的 “选项 
板 管理 器 ”中 选中 “收藏 夹 ” 然后 单 击 国 按 钮 ， 即 可 对 收藏 夹 进行 修改 。 

源 : 该 栏 包含 了 能 读 入 数据 到 Clementine 的 节点 。 例 如 “可 变 文件 ”节点 读 取 自 由 
格式 的 文本 文件 到 Clementine, “SPSS 文件 ” 读 取 SPSS 文件 到 Clementine。 

记录 选项 : 该 栏 包含 的 节点 能 对 数据 记录 进行 操作 。 例 如 “选择 ”节点 用 来 筛选 出 
满足 条 件 的 记录 ,“ 合 并 ”节点 将 来 自 不 同 数据 源 的 数据 合并 在 一 起 ,“ 追 加 ”节点 可 以 
向 数据 文件 中 添加 记录 等 。 

字段 选项 ， 该 栏 包含 了 能 对 字段 进行 操作 的 节点 。 例 如 “过 滤 ” 节 点 能 让 被 过 滤 的 
字段 不 作为 建 模 过 程 的 输入 ,“ 导 出 ”节点 能 根据 现 有 的 字段 来 生成 新 的 字段 。 

图 形 : 该 栏 包含 了 众多 的 图 形 节点 ， 这 些 节 点 用 于 在 建 模 前 或 建 模 后 将 数据 通过 图 
形 形 式 输出 ， 便 于 用 户 更 直观 地 了 解数 据 特性 。 

建 模 : 该 栏 包 含 了 各 种 已 封装 好 的 模型 ， 例 如 神经 网 络 、 决 策 树 (C5.0) 等 。 这 些 
模型 能 完成 预测 、 分 类 、 关 联 分 析 等 功能 。 

输出 : 该 栏 提 供 了 许多 能 输出 数据 、 模 型 结果 的 节点 ， 用 户 不 仅 可 以 直接 在 
Clementine 中 查看 输出 结果 ， 也 可 以 输出 到 其 他 应 用 程序 中 查看 ， 例 如 SPSS 和 Excel。 

导出 : 该 栏 下 的 节点 提供 了 将 数据 以 各 种 不 同 的 格式 导出 的 功能 ， 作 为 与 其 他 软件 
的 接口 。 例 如 “数据 库 ” 节 点 可 以 将 数据 写 入 ODBC 数据 源 。 为 了 将 数据 写 入 ODBC 
数据 源 ， 该 数据 源 必 须 存 在 ， 同 时 用 户 必 须 具 有 写 权 限 。 


3. 管理 器 窗口 


管理 器 窗口 中 共 包含 了 “ 流 “ 输 出 ”“ 模 型 ”3 个 栏 。 其 中 “ 流 ” 中 放置 了 运行 
期 内 打开 的 所 有 数据 流 ， 可 以 通过 右 击 数据 流 名 对 数据 流 进 行 保存 、 设 置 属性 等 操作 。 
“输出 ”中 包含 了 运行 数据 流 时 所 有 的 输出 结果 ， 可 以 通过 双击 结果 名 查看 输出 的 结果 。 
“模型 ”中 包含 了 模型 的 运行 结果 ， 可 以 右 击 该 模型 从 弹出 的 “浏览 ”中 查看 模型 结果 ， 
也 可 以 将 模型 结果 加 入 到 数据 流 中 。 
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4. 工程 管理 区 


工程 管理 区 含有 两 个 选项 栏 ， 一 个 是 CRISP-DM， 一 个 是 “类 ”。 

CRISP-DM 的 设置 是 基于 CRISP-DM 模型 的 思想 ， 它 方便 用 户 存放 在 挖掘 各 个 阶段 
形成 的 文件 。 右 击 阶段 名 ， 可 以 选择 生成 该 阶段 要 拥有 的 文件 ， 也 可 以 打开 已 存在 的 文 
件 将 其 放 入 该 阶段 。 这 样 做 的 好 处 是 使 用 户 对 数据 挖掘 过 程 一 目 了 然 ， 也 有 利于 对 它 进 
行 修改 。 

“类 ”窗口 具有 同 CRISP-DM 窗口 相似 的 作用 ， 它 的 分 类 不 是 基于 挖掘 的 各 个 过 程 ， 
而 是 基于 存储 的 文件 类 型 ， 例 如 数据 流 文件 、 节 点 文件 、 图 表 文 件 等 。 


1. 生成 数据 流 的 基本 过 程 


数据 流 由 一 系列 的 节点 组 成 ， 当 数据 通过 每 个 节点 时 ， 节 点 对 它 进 行 定义 好 的 操作 。 
建立 数据 流通 常 遵循 以 下 4 个 步骤 : 

(1) 向 数据 流 区 域 增添 新 的 节点 ; 

(2) 将 这 些 节点 连接 到 数据 流 中 ; 

(3) 设 定数 据 节点 或 数据 流 的 功能 ; 

(4) 运行 数据 流 。 

2， 向 数据 流 区 域 添加 /删除 节点 


当 向 数据 流 区 域 添加 新 的 节点 时 ， 通 过 下 面 3 种 方法 均 可 实现 : 

(1) 双击 选项 板 区 中 待 添加 的 节点 。 

(2) 单 击 待 添加 节点 ， 按 住 鼠 标 不 放 ， 将 其 拖 入 数据 流 区 域内 。 

(3) 先 选 中 选项 板 区 中 待 添加 的 节点 ， 然 后 将 鼠标 放 入 数据 流 区 域 ， 在 鼠标 变 为 十 
字形 时 单 击 数据 流 区 域 的 任何 空白 处 。 

通过 上 面 3 种 方法 都 将 发 现 选中 的 节点 出 现在 了 数据 流 区 域内 。 

当 不 再 需要 数据 流 区 域内 的 某 个 节点 时 ， 可 以 通过 以 下 两 种 方法 来 删除 

(1) 单 击 待 删除 的 节点 ， 按 Delete 键 删除 。 

(2) 右 击 待 删除 的 节点 ， 在 快捷 菜单 中 选择 delete 命令 。 

注意 ， 删 除 一 个 节点 后 ， 与 之 相连 的 所 有 连接 也 将 一 并 被 删除 。 


3. 将 节点 连接 到 数据 流 中 


上 面 介绍 了 将 节点 添加 到 数据 流 区 域 的 方法 ， 然 而 要 使 节点 真正 发 挥 作用 ， 需 要 把 
节点 连接 到 数据 流 中 。 以 下 有 3 种 方法 可 将 节点 连接 到 数据 流 中 : 

(1) 双击 节点 。 首 先 选 中 数据 流 中 要 连接 新 节点 的 节点 (起 始 节点 )， 然 后 双击 选项 
板 区 中 要 添加 到 数据 流 的 节点 (目标 节点 )， 这 样 新 节点 会 出 现在 数据 流 区 域 , 并 自动 建 
立 从 起 始 节点 到 目标 节点 的 连接 。 
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(2) 通过 Alt 键 连接 。 首 先 在 数据 流 中 选中 连接 起 始 节点 ， 按 住 Alt 键 不 放 ， 然 后 
用 鼠标 将 起 始 节 点 拖 忠 到 目标 节点 后 放 开 ， 连 接 便 自动 生成 。 

(3) 手动 连接 。 右 击 待 连接 的 起 始 节点 ， 从 弹出 的 快捷 菜单 中 选择 “连接 …” 命 令 ， 
这 时 鼠标 会 变 成 Se 形状， 然后 用 鼠标 单 击 目标 节点 ， 连 接 便 自 动 生成 。 

需要 注意 的 是 ， 并 不 是 任何 两 个 节点 之 间 都 可 以 建立 连接 。 

4. 绕 过 数据 流 中 的 节点 

当 暂 时 不 需要 数据 流 中 的 某 个 节点 时 可 以 绕 过 该 节点 。 在 绕 过 它 时 ， 如 果 该 节点 既 
有 输入 节点 又 有 输出 节点 ， 那 么 它 的 输入 节点 和 输出 节点 便 直 接 相连 ， 如 果 该 节点 没有 
输出 结 点 ， 那 么 绕 过 该 节点 时 与 这 个 节点 相连 的 所 有 连接 便 被 取消 。 

方法 : 按 住 Alt 键 不 放 ， 然 后 双击 数据 流 中 需要 绕 过 的 节点 ， 如 图 2.2 所 示 。 


DO @® 人 ® 
数据 库 数据 库 
(a) 绕 过 节点 之 前 (b) 绕 过 节点 之 后 


图 2.2 绕 过 节点 前 后 对 比 


5. 将 节点 插入 已 存在 的 连接 中 


当 需 要 在 两 个 已 连接 的 节点 中 再 插入 一 个 节点 时 ， 可 以 用 鼠标 将 连接 拖 到 要 插入 的 
节点 上 ， 即 可 将 节点 插入 到 连接 中 ， 如 图 2.3 所 示 。 同 时 原来 两 个 节点 间 的 连接 被 删除 。 


6. 删除 连接 
当 某 个 连接 不 再 需要 时 ， 可 以 通过 以 下 两 


种 方法 将 其 删除 ; 
(1) 选择 待 删 除 的 连接 ， 右 击 ， 从 弹出 的 样本 
快捷 菜单 中 选择 “删除 连接 ”命令 。 再 本 天 和 二 交 


(2) 选择 待 删除 连接 的 节点 ， 按 F3 键 ， 
删除 所 有 连接 到 该 节点 上 的 连接 。 


7. 数据 流 的 执行 


数据 流 构建 好 后 要 通过 执行 数据 流 数据 才能 从 读 入 开始 流向 各 个 数据 节点 。 执 行 数 
据 流 的 方法 有 以 下 3 种 。 

(1) 单 击 菜单 栏 中 的 鹏 按钮 ， 数 据 流 区 域内 的 所 有 数据 流 将 被 执行 。 

(2) 先 选 择 要 输出 的 数据 流 ， 再 单 击 菜单 栏 中 的 莫 按 钮 ， 被 选 的 数据 流 将 被 执行 。 

(3) 选择 要 执行 的 数据 流 中 的 输出 节点 ， 右 击 ， 在 弹出 的 快捷 菜单 中 选择 “执行 ” 
命令 ， 执 行 被 选中 的 节点 。 


第 3 章 决 策 树 


&» 分 类 与 决策 树 概 述 


分 类 是 一 种 应 用 非常 广泛 的 数据 挖掘 技术 ， 应 用 的 例子 也 非常 多 。 例 如 ， 根 据 信用 
卡 支 付 历史 记录 ， 来 判断 具备 哪些 特征 的 用 户 往往 具有 良好 的 信用 ; 根据 某 种 病症 的 诊 
断 记 录 ， 来 分 析 哪 些 药物 组 合 可 以 带 来 良好 的 治疗 效果 。 这 些 过 程 的 一 个 共同 特点 是 
根据 数据 的 某 些 属性 ， 来 估计 一 个 特定 属性 的 值 。 例 如 在 信用 分 析 案 例 中 ， 根 据 用 户 的 
“年 龄 “性 别 ^“ 收 入 水 平和 “职业 ”等 属性 的 值 ， 来 估计 该 用 户 “ 信 用 度 ” 属 性 的 
值 应 该 取 “ 好 ”还 是 “ 差 ” 在 这 个 例子 中 ， 所 研究 的 属性 “信用 度 ” 是 一 个 离散 属性 ， 
它 的 取 值 是 一 个 类 别 值 ， 这 种 问题 在 数据 挖掘 中 被 称 为 分 类 。 

还 有 一 种 问题 ， 例 如 根据 股市 交易 的 历史 数据 来 估计 下 一 个 交易 日 的 大 盘 指 数 ， 这 
里 所 研究 的 属性 “大 盘 指 数 ” 是 一 个 连续 属性 ， 它 的 取 值 是 一 个 实数 。 那 么 这 种 问题 在 
数据 挖掘 中 被 称 为 预测 。 

总 之 ， 当 估计 的 属性 值 是 离散 值 时 ， 这 就 是 分 类 ， 当 估计 的 属性 值 是 连续 值 时 ， 这 
就 是 预测 。 

本 章 研究 的 问题 是 分 类 。 解 决 分 类 问题 有 很 多 方法 ， 例 如 基于 统计 的 方法 、 基 于 距 
离 的 方法 、 基 于 决策 树 的 方法 和 基于 神经 网 络 的 方法 等 。 其 中 ， 决 策 树 是 应 用 最 为 广泛 
的 方法 。 


1. 构建 决策 树 


通过 一 个 实际 的 例子 ， 来 了 解 一 些 与 决策 树 有 关 的 基本 概念 。 

表 3-1 是 一 个 数据 库 表 , 记载 着 某 银 行 的 客户 信用 记录 , 属性 包括 “姓名 ”“ 年 龄 ”、 
“职业 ” “月薪 、“ 信 用 等 级 ”， 每 一 行 是 一 个 客户 样本 ,每 一 列 是 一 个 属性 ( 字 
段 )。 这 里 把 这 个 表 记 做 数据 集 DD。 

银行 需要 解决 的 问题 是 ， 根 据 数 据 集 D， 建 立 一 个 信用 等 级 分 析 模 型 ， 并 根据 这 个 
模型 ， 产 生 一 系列 规则 。 当 银行 在 未 来 的 某 个 时 刻 收 到 某 个 客户 的 贷款 申请 时 ， 依 据 这 
些 规则 ， 可 以 根据 该 客户 的 年 龄 、 职 业 、 月 薪 等 属性 ， 来 预测 其 信用 等 级 ， 以 确定 是 否 
提供 贷款 给 该 用 户 。 这 里 的 信用 等 级 分 析 模 型 ， 就 可 以 是 一 棵 决策 树 。 


的 决策 树 。 


是 说 ， 要 把 这 个 客户 划分 到 信和 
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表 3-1 信用 记录 表 


年 龄 职业 
23 学 生 
45 公务 员 
38 职员 
50 教师 


月 世人 > 信用 等 级 
O00 良 
3000 优 
B00 差 
2600 良 


在 这 个 案例 中 ， 研 究 的 重点 是 “信用 等 级 ”这 个 属性 。 给 定 一 个 信用 等 级 未 知 的 客 
户 ， 要 根据 他 /她 的 其 他 属性 来 估计 “信用 等 级 ”的 值 是 “ 优 ”“ 良 ”还 是 “ 差 ”， 也 就 
等 级 为 “ 优 ”“ 良 ””“ 差 ”这 3 个 类 别 的 某 一 个 类 别 中 
去 。 这 里 把 “信用 等 级 ”这 个 属性 称 为 “类 标号 属性 ”。 数 据 集 D 中 “信用 等 级 ”属性 
的 全 部 取 值 就 构成 了 类 别 集合 : Class={“ 优 ”，“ 良 ”,“ 差 ”}。 

在 决策 树 方法 中 ， 有 两 个 基本 的 步骤 。 其 一 是 构建 决策 树 ， 其 二 是 将 决策 树 应 用 于 
数据 库 。 大 多 数 研究 都 集中 在 如 何 有 效 地 构建 决策 树 ， 而 应 用 则 相对 比较 简单 。 构 建 决 
策 树 的 算法 比较 多 ， 在 Clementine 中 提供 了 4 种 算法 ， 包 括 C&RT、CHAID、QUEST 
和 C5.0。 采 用 其 中 的 某 种 算法 ， 输 入 训练 数据 集 ， 就 可 以 构造 出 一 棵 类 似 于 图 3.1 所 示 
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图 3.1 决策 树 举 例 
一 棵 决策 树 是 一 棵 有 向 无 环 树 ， 它 由 若干 个 节点 、 分 支 、 分 裂 谓 词 以 及 类 别 组 成 。 


一 棵 决策 树 的 主体 。 其 9 


Ph， 没 有 父 节点 的 节点 称 为 根 节点 ， 如 图 3.1 中 的 节 


点 1; 没有 子 节点 的 节点 称 为 叶子 节点 ， 如 图 3.1 中 的 节点 4、5、6、7、8。 一 个 节点 按 
照 某 个 属性 被 分 裂 时 ， 这 个 属性 称 为 分 裂 属 性 ， 如 节点 1 按照 “年 龄 ”被 分 裂 ， 这 里 “年 
龄 ”就 是 分 裂 属 性 ， 同 理 ,“ 职 业 ”“ 月 薪 ” 也 是 分 裂 属 性 。 每 一 个 分 支 都 会 被 标记 一 个 


决策 树 


分 裂 谓词 ， 这 个 分 裂 谓词 就 是 分 裂 父 节点 的 具体 依据 ， 例 如 在 将 节点 1 分 裂 时 ， 产 生 两 
个 分 支 ， 对 应 的 分 裂 谓 词 分 别 是 “年 龄 <40” 和 “年 龄 40”。 另 外 ， 每 一 个 叶子 节点 都 
被 确定 一 个 类 标号 ， 这 里 是 “ 优 ”“ 良 ”或 者 “ 差 ”。 

实际 上 ， 每 一 个 节点 都 代表 了 一 个 数据 集 。 根 节点 1 代表 了 初始 数据 集 D， 其 他 节 
点 都 是 数据 集 DD 的 子 集 。 例 如 ， 节 点 2 代表 数据 集 DD 中 年 龄 小 于 40 岁 的 那 部 分 样本 组 
成 的 数据 集 。 子 节点 是 父 节 点 的 子 集 。 

基于 以 上 描述 ， 下 面 给 出 决策 树 的 定义 

给 定 一 个 数据 集 六 人, 三 ,，…, 可, 其 中 本 < 让 , 嫩 , …, 加 > 是 DD 中 的 第 i 个 样本 (二 1， 
2 …, n)， 数 据 集 模式 包含 的 属性 集 为 {44,45,，…, 4)， 刁 是 第 i 个 样本 的 第 j 个 属性 4 
的 值 (二 1, 2, …, h)。 同 时 给 定 类 标号 集合 C={Ci, Cy,…, Cm}。 对 于 数据 集 D， 决 策 树 
是 指 具 有 下 列 3 个 性 质 的 树 : 
口 每 个 非 叶 子 节 点 都 被 标记 一 个 分 裂 属性 4;。 
口 每 个 分 支 都 被 标记 一 个 分 裂 谓词 ， 这 个 分 裂 谓 词 是 分 裂 父 节点 的 具体 依据 。 
口 每 个 叶子 节点 都 被 标记 一 个 类 标号 CE C。 
由 此 可 以 看 出 ， 构 建 一 棵 决策 树 ， 关 键 问题 就 在 于 ， 如 何 选择 一 个 合适 的 分 裂 属性 
来 进行 一 次 分 裂 ， 以 及 如 何 制定 合适 的 分 裂 谓 词 来 产生 相应 的 分 支 。 各 种 决策 树 算法 的 
主要 区 别 也 正在 于 此 。 


2. 修剪 决策 树 


利用 决策 树 算法 构建 了 初始 的 树 之 后 ， 为 了 有 效 地 分 类 ， 还 要 对 其 进行 剪 枝 。 这 是 
因为 ， 由 于 数据 表示 不 当 、 有 噪声 等 原因 ， 会 造成 生成 的 决策 树 过 大 或 过 度 拟 合 。 因 此 
为 了 简化 决策 树 ， 寻 找 一 棵 最 优 的 决策 树 ， 剪 枝 是 一 个 必 不 可 少 的 过 程 。 

通常 ， 决 策 树 越 小 ， 就 越 容易 理解 ， 其 存储 与 传输 的 代价 也 就 越 小 ， 但 决策 树 过 小 
会 导致 错误 率 较 大 。 反 之 ， 决 策 树 越 复杂 ， 节 点 越 多 ， 每 个 节点 包含 的 训练 样本 个 数 越 
少 , 则 支持 每 个 节点 的 样本 数量 也 越 少 , 可 能 导致 决策 树 在 测试 集 上 的 分 类 错误 率 越 大 。 
因此 ， 剪 枝 的 基本 原则 就 是 ， 在 保证 一 定 的 决策 精度 的 前 提 下 ， 使 树 的 叶子 节点 最 少 ， 
叶子 节点 的 深度 最 小 。 要 在 树 的 大 小 和 正确 率 之 间 寻 找平 衡 点 。 

不 同 的 算法 ， 其 剪 枝 的 方法 也 不 尽 相同 。 常 有 的 剪 枝 方法 有 预 剪 枝 和 后 剪 枝 两 种 。 
例如 CHAID 和 C5.0 采用 预 剪 枝 ，CART 则 采用 后 前 枝 。 

预 前 枝 ， 是 指 在 构建 决策 树 之 前 ， 先 制定 好 生长 停止 准则 《〈 例 如 指定 某 个 评估 参数 
的 阔 值 )， 在 树 的 生长 过 程 中 ， 一 旦 某 个 分 支 满足 了 停止 准则 ， 则 停止 该 分 支 的 生长 ， 这 
样 就 可 以 限制 树 的 过 度 生 长 。 采 用 预 剪 枝 的 算法 有 可 能 过 早 地 停止 决策 树 的 构建 过 程 ， 
但 由 于 不 必 生 成 完整 的 决策 树 ， 算 法 的 效率 很 高 ， 适 合 应 用 于 大 规模 问题 。 

后 剪 枝 ， 是 指 待 决策 树 完全 生长 结束 后 ， 再 根据 一 定 的 规则 ， 剪 去 决策 树 中 那些 不 
具 一 般 代表 性 的 叶子 节点 或 者 分 支 。 这 时 ， 可 以 将 数据 集 划 分 为 两 个 部 分 ， 一 个 是 训练 
数据 集 ， 一 个 是 测试 数据 集 。 训 练 数据 集 用 来 生成 决策 树 ， 而 测试 数据 集 用 来 对 生成 的 
决策 树 进行 测试 ， 并 在 测试 的 过 程 中 通过 剪 枝 来 对 决策 树 进行 优化 。 


3. 生成 规则 
在 生成 一 棵 最 优 的 决策 树 之 后 ， 就 可 以 根据 这 棵 决策 树 来 生成 一 系列 规则 。 这 些 规 
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则 采用 “If…，Then…” 的 形式 。 从 根 节点 到 叶子 节点 的 每 一 条 路 径 ， 都 可 以 生成 一 条 
规则 。 这 条 路 径 上 的 分 裂 属 性 和 分 裂 谓 词 形成 规则 的 前 件 (下 部 分 )， 叶 子 节点 的 类 标号 
形成 规则 的 后 件 〈Then 部 分 )。 

例如 ， 图 3.1 的 决策 树 可 以 形成 以 下 5 条 规则 : 

下 (年 龄 <40) and (职业 =“ 学 生 ” or 职业 =“ 教 师 ”) ”Then 信用 等 级 =“ 优 ” 

下 (年 龄 <40) and (职业 !=“ 学 生 ”and 职业 !=“ 教 师 ”) ”Then 信用 等 级 =“ 良 ” 

下 (年 龄 =40) and (月 薪 <1000) ”Then 信用 等 级 =“ 差 ” 

下 (年 龄 =40) and (月 薪 =1000 and 月 薪 <3000) ”Then 信用 等 级 =“ 良 ” 

下 (年 龄 三 40) and (月 薪 >3000) ”Then 信用 等 级 =“ 优 ” 

这 些 规则 即 可 应 用 到 对 未 来 观测 样本 的 分 类 中 了 。 


人 ID3、C4.5 与 C5.0 


ID3 算法 是 最 有 影响 力 的 决策 树 算法 之 一 ， 由 Quinlan 提出 。ID3 算法 的 某 些 弱点 被 
改善 之 后 得 到 了 C4.5 算法 ; C5.0 则 进一步 改进 了 C4.5 算法 , 使 其 综合 性 能 大 幅度 提高 。 
但 由 于 C5.0 是 C4.5 的 商业 版 本 ， 其 算法 细节 属于 商业 秘密 ， 因 此 没有 被 公开 ， 不 过 在 
许多 数据 挖掘 软件 包 中 都 嵌入 了 C5.0 算法 ， 包 括 Clementine。 


1. 信息 增益 


任何 一 个 决策 树 算法 ， 其 核心 步骤 都 是 为 每 一 次 分 裂 确定 一 个 分 烈属 性 ， 即 究竟 按 
照 哪 一 个 属性 来 把 当前 数据 集 划分 为 若干 个 子 集 ， 从 而 形成 若干 个 “树枝 "。 

ID3 算法 是 采用 “信息 增益 ”为 度量 来 选择 分 多 属性 的 。 哪 个 属性 在 分 裂 中 产生 的 
信息 增益 最 大 ， 就 选择 该 属性 作为 分 裂 属性 。 那 么 什么 是 信息 增益 呢 ? 这 需要 首先 了 解 
“ 粒 ” 这 个 概念。 

炳 ， 是 数据 集中 的 不 确定 性 、 突 发 性 或 随机 性 的 程度 的 度量 。 当 一 个 数据 集中 的 记 
录 全 部 都 属于 同一 类 的 时 候 ， 则 没有 不 确定 性 ， 这 种 情况 下 的 精 就 为 0。 
决策 树 分 多 的 基本 原则 是 ， 数 据 集 被 分 凶 为 若干 个 子 集 后 ， 要 使 每 个 子 集中 的 数据 
尽 可 能 的 “ 纯 ” 也 就 是 说 子 集中 的 记录 要 
尽 可 能 属于 同一 个 类 别 。 如 果 套用 入 的 概 Dm 


念 ， 即 要 使 分 裂 后 各 子 集 的 烂 尽 可 能 的 小 。 
例如 在 一 次 分 裂 中 ， 数 据 集 D 被 按照 年 龄 
分 裂 属 性 “年 龄 ”分 裂 为 两 个 子 集 D 和 <40 >40 
D,，， 如 图 3.2 所 示 。 

其 中 ，H(D)、HKD1)、H(D;) 分 别 是 数 HD) HD) 
据 集 D、D1、D; 的 烂 。 那么 ， 按照“ 年 龄 ” 
将 数据 集 分 裂 为 D; 和 D; 所 得 到 的 信息 图 3.2 分 裂 中 粹 的 变化 


决策 树 


增益 为 : 
Gain(D, 年 龄 = H(D)-[P(D1)X HDD)+ P(D;)X H(D;)] 

其 中 ，P(Di) 是 D 中 的 样本 被 划分 到 Pi 中 的 概率 ，P(D;) 是 D 中 的 样本 被 划分 到 D， 
中 的 概率 ，P(D1)xH(D1)+ P(D;,)xH(D;) 是 HD1) 和 (Ds) 的 “加 权 和 ”。 

显然 ， 如 果 Di 和 D; 中 的 数据 越 “ 纯 ”，H(D1) 和 KD;) 就 越 小 ， 信 息 增益 就 越 大 ， 
或 者 说 烂 下 降 得 越 多 。 

按照 这 个 方法 , 测试 每 一 个 属性 的 信息 增益 , 选择 增益 值 最 大 的 属性 作为 分 裂 属 性 。 

下 面 给 出 信息 增益 的 计算 方法 。 

设 S 是 由 s 个 样本 组 成 的 数据 集 。 若 5 的 类 标号 属性 具有 m 个 不 同 的 取 值 ， 即 定义 
了 m 个 不 同 的 类 C (二 1, 2, …, m)。 设 属于 类 Ci 的 样本 的 个 数 为 ss， 那 么 数据 集 5 的 
录 为 : 


Wy -到 人 |- x Jb(D] 


i=1 i=1 
其 中 ，pi 是 任意 样本 属于 类 别 Ci 的 概率 ， 用 sys 来 估计 。 
设 5 的 某 个 属性 4 具有 vw 个 不 同 值 {a1, a2, …, av}, 先 根据 属性 4 将 数据 集 8 划分 为 
v 个 不同 的 子 集 {51, S;,…, 5,}, 子 集 5 中 所 有 样本 的 属性 4 的 值 都 等 于 aj(j=1, 2, …, v)。 
于 是 ， 在 分 裂 为 v 个 子 集 之 后 ， 任 意 一 个 子 集 5 的 燃 为 : 


T(s1j, $2j»°*, Sm) = -Dpy x lb(p;)] 
过 


其 中 ，si( 二 1, 2,…, m) 是 子 集 号 中 属于 类 别 C 的 样本 数量 ，Zi 产 sylgl 是 5 中 的 样本 
属于 类 别 ;的 概率 ，|sj| 是 子 集 5 中 的 样本 数量 。 
所 以 ，S 按照 属性 4 划分 出 的 v 个 子 集 的 烂 的 加 权 和 为 : 
ES Spe | 
/1 
Sj + S52j 十 … 十 3 


其 中 ， 本 是 子 集 5 的 权重 ， 等 于 子 集 5 中 的 样本 数量 Isj 除 以 5 中 的 


样本 总 数 。 
所 以 ， 按 照 属性 4 把 数据 集 5S 分裂， 所 得 的 信息 增益 就 等 于 数据 集 8 的 烂 减 去 各 子 
集 的 烂 的 加 权 和 |: 
Gain($, A)=1(s,s,,.……,s,)—E(S. A) 
ID3 算法 计算 每 一 个 属性 的 信息 增益 ， 并 选取 增益 最 大 的 属性 作为 分 裂 属性 ， 然 后 
用 该 属性 的 每 一 个 不 同 的 值 创建 一 个 分 支 ， 从 而 将 数据 集 划分 为 若干 个 子 集 。 
2. ID3 算法 的 流程 


ID3 算法 是 一 个 从 上 到 下 、 分 而 治之 的 归纳 过 程 。 

ID3 算法 的 核心 是 : 在 决策 树 各 级 节点 上 选择 分 裂 属 性 时 ， 通 过 计算 信息 增益 来 选 
择 属性 ,以 使 得 在 每 一 个 非 叶 节点 进行 测试 时 , 能 获得 关于 被 测试 样本 最 大 的 类 别 信息 。 
其 具体 方法 是 : 检测 所 有 的 属性 ， 选 择 信息 增益 最 大 的 属性 产生 决策 树 节点 ， 由 该 属性 
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的 不 同 取 值 建立 分 支 ， 再 对 各 分 支 的 子 集 递归 调用 该 方法 建立 决策 树 节点 的 分 支 ， 直 到 
所 有 子 集 仅 包含 同一 类 别 的 数据 为 止 。 最 后 得 到 一 棵 决策 树 ， 它 可 以 用 来 对 新 的 样本 进 


行 分 类 。 
ID3 算法 思想 描述 如 下 : 
(1) 初始 化 决策 树 7 为 只 含 一 个 树 根 X08)， 其 中 蕊 是 全 体 样本 集 ，Q 为 全 体 属 
(2) iKT 中 所 有 叶 节 点 (CY', 0') 都 满足 邓 属 于 同一 类 或 0' 为 空 ) then 算法 停止 ; 
(3) else 


{ 任 取 一 个 不 具有 〈2) 中 所 述 状态 的 叶 节 点 人 8"); 

(4) ”for each 0O' 中 的 属性 4 do 计算 信息 增益 Gain(4, 六 ); 
(5) ”选择 具有 最 高 信息 增益 的 属性 B 作为 节点 (XY', 2 ) 的 分 裂 属 性 ; 
(6) for each B 的 取 值 b;， do 

{从 该 节点 (Y', 20) 伸 出 分 支 ， 代 表 分 裂 输出 B=b;i: 

求 得 对 中 B 值 等 于 b; 的 子 集 柬 ， 并 生成 相应 的 叶 节 点 Cfi', 2 {B}); } 
(7) 转 (2); } 
下 面 通过 一 个 实例 来 了 解 一 下 决策 树 的 构建 过 程 。 
表 3-2 是 一 个 假想 的 银行 贷款 客户 历史 信息 〈 略 去 了 客户 姓名 )， 包 含 14 个 样本 。 
现 要 求 以 这 14 个 样本 为 训练 数据 集 ， 以 “提供 贷款 ”为 类 标号 属性 , 用 ID3 算法 构建 决 


策 树 。 
表 3-2 训练 数据 集 D 

No. 年 龄 收入 水 平 有 固定 收入 ”VIP 类 别 : 提供 贷款 
1 <30 高 否 否 否 
2 <30 高 否 是 香 
3 [30，50] 高 否 否 是 
4 >50 中 否 否 是 
5 >50 低 是 看 是 
6 >50 低 是 是 否 
7 [30，50] 低 是 是 是 
8 <30 中 否 否 有 
9 <30 低 是 否 是 
10 >50 中 是 否 是 
11 <30 中 是 是 是 
12 [30，50] 中 否 是 是 
13 [30，50] 高 是 否 是 
14 >50 中 否 是 否 


设 该 数据 集 为 D。 类 标号 属性 “提供 贷款 ”有 两 个 不 同 值 :“ 是 ”和 “ 否 ”， 因此 有 
两 个 不 同 的 类 。 令 C1 对 应 “是 ” C2 对应“ 否 ”， 那么 C1 有 9 个 样本 ，Cs 有 5 个 样本 ， 
所 以 数据 集 D 的 炳 为 


决策 树 
| 
(si,s,) =1(9,5) = 2 [二 | 二 [ 言 | 0.9406 
下 面 分 别 计算 按 各 属性 分 裂 后 所 得 诸 子 集 的 烂 的 加 权 和 。 


若 以 “年 龄 ”作为 分 裂 属 性 ， 则 产生 3 个 子 集 (因为 该 属性 有 3 个 不 同 的 取 值 )， 所 


以 万 按照 属性 “年 龄 ”划分 出 的 3 个 子 集 的 粹 的 加 权 和 为 
EE(D, 年 龄 )= 之 [33 -4b4]+ 3 (323303 | 
14\ 555 5)14 4 4)14( 5 555 
=0.3468 +0+0.3468=0.6936 
因此 ， 以 “年 龄 ”作为 分 裂 属性 来 划分 的 信息 增益 为 
Gain(D, 年 龄 )=7(s,,s,)-E(D, 年 龄 )= 0.9406 一 0.6936= 0.247 
理 ， 若 以 “收入 水 平 ”为 分 裂 属性 ; 


EE 人 
起 遍 必 六 未 戎 局 交 | - 生 大 符 = 生 的 和 | 过 | 三 矶 二 三 矶 和 
办 收入 水 了 ) | 


可 


+ (Slo3 TIT]=02857+03936+02318=09111 
14\ 4 4 4 4 


Gain(D, 收 入 水 平 ) = Ts,s)- ECD. 收 入 水 平 )= 0.9406- 0.9111= 0.0295 
若 以 “有 固定 收入 ”为 分 裂 属性 : 
定 dd A 证 二 下 证 于 
ED 固定 收入 = 总 | 7 bj 71b7 bo} | 
=0.4927+0.2959 = 0.7886 
Gain(D, 固 定 收入 )= Ts ,9)- ECD, 固 定 收入 )=0.9406-0.7886=0.152 
若 以 “VIP” 为 分 裂 属性 : 
6 6 2 2 6/ 3.3 3.3 


ED Vip) = Slog -Bb2 |+ [2b 2 ] 
14\ 8 8 8 8) 14 6 6656 


=0.4636+0.4286 = 0.8922 
Gain(D, VIP) = 1(s,,s;)— E(D,VIP) = 0.9406 一 0.8922 = 0.0484 
由 此 可 见 ， 若 以 “年 龄 ”作为 分 裂 属 性 ， 所 得 信息 增益 最 大 。 于 是 根据 该 属性 的 
个 不 同 取 值 ， 将 数据 集 DD 分裂 为 3 个 子 集 Di、D: 和 D3， 如 图 3.3 所 示 。 


Ek 


在 图 3.3 中 ， 节 点 3 中 的 全 部 样本 都 属于 同一 个 类 别 ， 因 此 它 成 为 叶子 节点 ， 不 再 


分 裂 。 
采用 同样 的 方法 ， 分 别 对 数据 子 集 D1 和 D; 进行 分 裂 ， 直 到 所 得 子 集 的 全 部 样本 
于 同一 个 类 别 ， 得 到 全 部 叶子 节点 。 最 终 得 到 的 决策 树 如 图 3.4 所 示 。 


3. ID3 算法 的 性 能 分 析 


属 


ID3 算法 是 一 种 典型 的 决策 树 分 类 算法 ， 后 来 发 展 的 许多 决策 树 算法 都 是 以 ID3 算 


法 为 基础 发 展 而 来 的 。 


ID3 算法 的 优点 在 于 它 构建 决策 树 的 速度 比较 快 ， 它 的 计算 时 间 随 问题 的 难度 只 是 


线性 地 增加 ， 适 合 处 理 大 批量 数据 集 。 
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节点 1: 
数据 集 忆 


年 龄 
<30 >50 


[30.50] 


节点 2: 子 集 Pi 节点 3: 子 集 DD， 节点 4: 子 集 P; 


否 是 否 是 
类 : 否 类 :是 类 :是 类 : 否 
3.4 ”构建 的 决策 树 


同时 ，ID3 算法 的 缺点 也 是 突出 的 ， 包 括 以 下 几 点 。 

(1) ID3 算法 对 训练 样本 的 质量 的 依赖 性 很 强 ， 训 练 样本 的 质量 主要 是 指 是 否 存在 
噪声 和 是 否 存在 足够 的 样本 。 

(2) ID3 算法 只 能 处 理 分 类 属性 《离散 属性 )， 而 不 能 处 理 连续 属性 〈 数 值 属性 )。 
在 处 理 连续 属性 时 ， 一 般 要 先 将 连续 属性 划分 为 多 个 区 间 ， 转 化 为 分 类 属性 。 例 如 “年 
龄 "， 要 把 其 数值 事先 转换 为 诸如 “小 于 30 岁 ”““30 一 50 岁 ”“ 大 于 50 岁 ” 这 样 的 区 
间 ， 再 根据 年 龄 值 落 入 了 某 一 个 区 间 取 相应 的 类 别 值 。 通 常 ， 区 间 端 点 的 选取 包含 着 一 
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定 的 主观 因素 和 大 量 的 计算 。 

(3) ID3 算法 生成 的 决策 树 是 一 棵 多 叉 树 ， 分 支 的 数量 取决 于 分 裂 属性 有 多 少 个 不 
同 的 取 值 。 这 不 利于 处 理 分 裂 属 性 取 值 数目 较 多 的 情况 。 因 此 目前 流行 的 决策 树 算法 大 
多 采用 二 又 树 模型 。 

(4) ID3 算法 不 包含 对 树 的 修剪 ， 无 法 对 决策 树 进行 优化 。 

正 因为 ID3 还 存在 着 许多 不 足 的 地 方 ，Quinlan 对 ID3 算法 进行 了 改进 ， 并 于 1993 
年 提出 了 ID3 的 改进 算法 C4.5。 


C4.5 算法 的 核心 思想 与 ID3 完全 相同 ， 但 在 实现 方法 上 做 了 更 好 的 改进 ， 并 增加 了 
新 的 功能 。 主 要 包括 : 采用 “增益 比例 ”来 选择 分 裂 属 性 、 对 连续 属性 的 处 理 、 对 样本 
属性 值 缺 失 情 况 的 处 理 、 规 则 的 产生 、 交 叉 验证 等 。 


1. 用 “增益 比例 ”来 选择 分 裂 属性 


如 前 所 述 ，ID3 是 采用 “信息 增益 ”来 选择 分 裂 属性 的 。 虽 然 这 是 一 种 有 效 的 方法 ， 
但 其 具有 明显 的 倾向 性 ， 即 它 倾 向 于 选择 具有 大 量 不 同 取 值 的 属性 ， 从 而 产生 许多 小 而 
纯 的 子 集 。 尤 其 是 关系 数据 库 中 作为 主键 的 属性 ， 每 一 个 样本 都 有 一 个 不 同 的 取 值 。 如 
果 以 这 样 的 属性 作为 分 裂 属 性 ， 那 么 将 产生 非常 多 的 分 支 ， 而 且 每 一 个 分 支 产生 的 子 集 
的 稍 均 为 0〈 因 为 子 集中 只 有 一 个 样本 !)。 显 然 ， 这 样 的 决策 树 是 没有 实际 意义 的 。 因 
此 ，Quinlan 提出 使 用 增益 比例 来 代 蔡 信息 增益 。 

设 8 代表 训练 数据 集 ， 由 s 个 样本 组 成 。4 是 8 的 某 个 属性 ， 有 m 个 不 同 的 取 值 ， 
根据 这 些 取 值 可 以 把 8 划分 为 m 个 子 集 ，5; 表 示 第 i 个 子 集 ( 志 1, 2,…, m)，|Si 表 示 子 
集 5; 中 的 样本 数量 。 那 么 : 


Split_Info(5, 四 =- 全 | 号 ib] ， 称 为 “数据 集 5 关于 属性 4 的 纺 ” 


i=1 
Split_Info(S, 4) 用 来 衡量 属性 4 分 裂 数据 集 的 广度 和 均匀 性 。 样 本 在 属性 4 上 的 取 
值 分 布 越 均 匀 ，Split Info(S,.4) 的 值 就 越 大 。 
NS 
Ny 前 面 提 到 的 “ 灶 ”"， 其 实 是 “数据 集 关于 类 标号 属性 的 粹 ”"， 也 就 是 说 ， 在 计算 粹 的 时 候 ， 
样本 个 数 是 根据 类 别 属性 的 值 来 计算 的 。 这 里 “数据 集 $ 关于 属性 4 的 炉 "， 即 样本 个 数 是 根 
据 属性 4 的 值 来 计算 。 


增益 比例 的 定义 为 
GainRatio(S, 4) = 一 G3n(5: 才 C4 .5 算法 选择 增益 比例 最 大 者 作为 分 烈属 性 。 


Split_Info(S., A) 
显然 ， 属 性 4 分 裂 数 据 集 的 广度 越 大 ， 均 匀 性 越 强 ， 其 Split_Info(S, 4) 就 越 大 ， 增 
益 比 例 就 越 小 。 所 以 ，Split_Info(S, 4) 消除 了 选择 那些 值 较 多 且 均 匀 分 布 的 属性 作为 分 
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裂 属 性 的 倾向 性 。 
这 里 是 一 个 计算 增益 比例 的 例子 。 对 于 表 3-2 所 示 的 数据 集 D， 如 果 按 照 “ 年 龄 ” 
来 分 裂 ， 那 么 : 
3 1 bs 4., 4 


Split_ Info(D, 年 龄 lb 前 袜 =1.5774 
. 的 wa a 14 14 14 14 


所 以 ， 
Gain(5, 年 龄 ) _ 0.247 
Split Imfo(S. 年 龄 ) 1.5774 


同 理 可 求 出 其 他 属性 的 信息 增益 比例 ， 选 择 最 大 者 作为 分 裂 属 性 。 
通常 ，C4.5 根据 信息 增益 来 选取 分 裂 属 性 ， 对 于 超过 平均 信息 增益 的 属性 ， 才 进 一 
步 根据 增益 比例 来 选取 分 裂 属 性 。 


2. 连续 属性 的 处 理 


ID3 最 初 的 定义 假设 数据 集 的 各 属性 都 必须 是 离散 的 。 如 果 有 连续 属性 ， 则 可 以 采 
划分 区 间 的 方法 来 离散 化 。 例 如 在 前 面 的 例子 中 ， 属 性 “年 龄 ”由 于 是 连续 型 属性 ， 
被 划分 为 “<30”“[30，50]”、“>50”3 个 区 间 ， 这 样 属性 “年 龄 ”的 不 同 取 值 就 只 有 3 
个 了 ， 这 就 是 被 离散 化 的 过 程 。 在 C4.5 中 ， 算 法 采用 另外 一 种 方法 来 实现 连续 属性 的 离 
散 化 。 

设 数据 集中 有 一 连续 属性 丈 现 要 测试 是 否 可 以 选用 该 属性 来 对 数据 集 进行 分 裂 以 
及 如 何 分裂 〈 即 通过 计算 信息 增益 或 增益 比例 来 确认 了 是 否 可 以 作为 分 裂 属 性 ， 如 果 可 
以 ， 还 要 确定 分 裂 谓 词 )。 

设 属性 了 有 m 个 不 同 的 取 值 , 按 大 小 顺序 升序 排列 为 mw<w<,，…，<vnme。 从 {v1, wm，…， 
vmt} 中 选择 一 个 vi 作为 六 值 ， 则 可 以 根据 “7 了 <v” 和 “六 vi” 将 数据 集 划 分 为 两 个 部 分 ， 
形成 两 个 分 支 。 显 然 ，{v1, v2，…, vm1} 就 是 可 能 的 阐 值 的 集合 ， 共 (m-1) 个 元 素 。 把 这 些 
闵 值 一 一 取出 来 ， 并 根据 “Y<vw” 和 “了 > vw” 把 训练 数据 集 划分 为 两 个 子 集 ， 并 计算 每 
一 种 划分 方案 下 的 信息 增益 或 增益 比例 ， 选 择 最 大 增益 或 增益 比例 所 对 应 的 那个 阐 值 ， 
作为 最 优 的 阔 值 。 

可 以 看 出 ， 如 果 选 择 连 续 属 性 作为 分 裂 属 性 ， 则 分 裂 后 只 有 两 个 分 支 ， 而 不 像 离 散 
属性 那样 可 能 会 有 多 个 分 支 (由 离散 属性 的 取 值 个 数 决定 )。 另 外 ， 以 上 处 理 要 付出 一 定 
的 计算 代价 。 

例如 在 表 3-3 所 示 的 训练 数据 集中 ， 如 果 要 计算 “年 龄 ”属性 的 信息 增益 ， 则 首先 
将 不 同 的 属性 值 排序 {20，25，28，40，46，55，56，58，60，65，70}， 那 么 可 能 的 阔 
值 集合 为 {20，25，28，40，46，55，56，58，60，65}， 从 中 一 一 取出 ， 并 形成 分 裂 谓 
词 ， 例 如 取出 “20” 形成 谓词 “<20” 和 “>20”， 用 它们 划分 训练 数据 集 ， 然 后 计算 信 
息 增益 或 增益 比例 。 


3. 处 理 有 缺失 值 的 样本 


ID3 是 基于 所 有 属性 值 都 已 经 确定 这 一 假设 的 。 但 是 在 实际 应 用 中 ， 经 常会 因为 搜 
集 样本 时 有 的 样本 的 数据 不 完整 ， 或 者 输入 数据 时 有 人 为 的 误差 等 原因 ， 一 个 数据 集中 


GainRatio (D, 年 龄 )= =0.1566 
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会 有 某 些 样本 缺少 一 些 属性 值 。 例如 在 表 3-3 中 , 有 两 个 样本 的 “收入 水 平 ”缺失 了 (用 
“? ” 代 埠 )。 


表 3-3 ”有 连续 属性 和 缺失 值 的 训练 数据 集 S 


No. 年 龄 收入 水 平 有 固定 收入 VIP 类 别 : 提供 贷款 
1 25 高 否 否 否 
2 28 高 否 是 否 
3 40 高 需 否 是 
4 56 中 香 否 是 
3 60 低 是 否 是 
6 65 低 是 是 否 
40 低 是 是 是 
8 25 中 否 否 否 
9 28 低 是 否 是 
10 55 中 是 否 是 
11 20 ? 是 是 是 
聘 46 中 否 是 是 
13 58 ? 是 否 是 
14 70 中 否 是 否 


在 用 一 个 属性 对 数据 集 进行 划分 时 ， 必 须知 道 一 个 样本 属于 哪 一 类 (以 便于 计算 每 
类 有 多 少 个 样本 ， 进 而 计算 该 属性 的 信息 增益 )， 这 是 根据 这 个 样本 的 属性 值 来 决定 的 ， 
但 是 由 于 属性 值 缺 失 ， 那 么 该 如 何 判断 这 个 样本 属于 哪 一 类 呢 ? 

C4.5 并 不 会 武断 地 将 一 个 有 缺失 值 的 样本 抛弃 〈 当 然 ， 样 本 数量 很 大 的 时 候 可 以 这 
么 做 )， 也 不 会 随意 地 将 它 分 配 到 某 个 类 别 中 去 。C4.5 会 根据 其 他 已 知 属性 值 来 计算 一 
个 有 缺失 值 的 样本 属于 某 个 类 别 的 概率 ， 这 个 样本 可 以 属于 每 一 个 类 ， 只 是 概率 不 同 
而 已 。 

例如 ， 在 表 3-3 的 14 个 样本 中 ,“ 收 入 水 平 ” 有 两 个 缺失 值 ， 其 他 12 个 样本 的 分 布 
如 表 3-4 所 示 。 


表 3-4 样本 分 布 


收入 水 平 ”分 类 : 是 分类: 否 


多 
中 3 多 5 合计 El 5 12 


由 表 3-4 可 以 看 出 ， 一 个 未 知 的 “收入 水 平 ” 的 值 ， 取 为 “高 ”的 概率 为 3/112， 取 
为 “中 ”的 概率 为 12， 取 为 “ 低 ” 的 概率 为 412。 所 以 ， 当 用 属性 “收入 水 平 ” 将 该 
数据 集 S 划分 为 3 个 子 集 S1〈 收 入 水 平 =“ 高 ”)、Ss。( 收 入 水 平 =“ 中 ”) 和 8 (收入 水 
i 后 

Si 的 样本 数量 为 : 3+2x(3/12); Ss 的 样本 数量 为 : 5+2x(5/12); Ss 的 样本 数量 为 : 
4+2x(4/12)。 

3 个 子 集 的 样本 数量 总 和 为 : 3+2x(3/12)+5+2x(5/12)+4+2x(4/12)=14， 样 本 总 数 
不 变 。 
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有 了 各 子 集 的 样本 数量 ， 就 可 以 计算 相应 的 焙 和 信息 增益 了 。 
4. 树 的 修剪 


C4.5 采用 的 修剪 方法 是 所 谓 的 “后 剪 枝 ” 即 待 决策 树 完 全 生长 结束 之 后 ， 再 来 修 
剪 掉 那些 对 分 类 精度 贡献 不 大 的 叶子 节点 。 

对 于 某 个 节点 ， 计 算 该 节点 分 裂 之 前 的 误 分 类 损失 (由 于 错误 地 预测 了 样本 的 类 别 
而 导致 的 损失 ) 和 分 裂 成 子 树 之 后 的 误 分 类 损失 ， 如 果 分 裂 后 的 误 分 类 损失 没有 得 到 显 
著 降低 ， 就 可 以 考虑 修剪 掉 这 棵 子 树 。 

在 计算 分 类 精度 之 前 ， 用 户 可 以 自行 定义 各 种 误 分 类 损失 的 权重 ， 例 如 “A 类 样本 
被 误 分 类 为 B 类 导致 的 损失 ” 比 “B 类 样本 被 误 分 类 为 A 类 导致 的 损失 ”要 大 得 多 ， 在 
这 种 情况 下 就 可 以 通过 设置 误 分 类 损失 的 权重 来 加 以 区 分 。 


5. 规则 的 产生 


C4.5 提供 了 将 决策 树 模型 转换 为 还 Then 规则 的 算法 。 规 则 存储 于 一 个 二 维 数组 中 ， 
每 一 行 代表 一 个 规则 。 表 的 每 一 列 代表 样本 的 一 个 属性 , 列 的 值 代表 了 属性 的 不 同 取 值 。 
例如 ， 对 于 分 类 属性 来 说 ，0 和 1 分 别 代表 取 属性 的 第 一 个 和 第 二 个 值 ， 对 于 数值 属性 
而 言 ，0 和 1 分 别 代表 “小 于 等 于 阅 值 ” 和 “大 于 阅 值 ”如 果 列 值 为 -1， 则 代表 规则 中 
不 包含 该 属性 。 

6， 交叉 验证 


分 类 是 有 监督 学 习 ， 通 过 学 习 可 以 对 未 知 的 数据 进行 预测 。 在 训练 过 程 开始 之 前 ， 

将 一 部 分 数据 保留 下 来 ， 在 训练 之 后 ， 利 用 这 部 分 数据 对 学 习 的 结果 进行 验证 ， 这 种 模 
型 评估 方法 称 为 交叉 验证 。 如 果 将 这 个 “学 习 - 验 证 ”的 过 程 重复 次， 就 称 为 次 迭代 
交叉 验证 。 首 先 将 所 有 训练 数据 平均 分 成 大 份 ， 每 次 使 用 其 中 一 份 作为 测试 样本 ， 其 余 
的 志 1 份 数据 作为 学 习 样本 ， 然 后 选择 平均 分 类 精度 最 高 的 树 作为 最 后 的 结果 。 通 常 ， 

分 类 精度 最 高 的 树 并 不 是 节点 最 多 的 树 。 另 外 ， 交 叉 验证 还 可 以 用 于 决策 树 的 修剪 。 大 
次 迭代 交叉 验证 非常 适合 训练 样本 数目 比较 少 的 情形 ， 但 由 于 要 构建 大 棵 决策 树 ， 因 此 
计算 量 非常 大 。 


C5.0 是 C4.5 的 一 个 商业 版 本 , 被 广泛 应 用 于 许多 数据 挖掘 软件 包 中 , 如 Clementine， 
但 它 的 精确 算法 并 没有 公开 。C5.0 主要 针对 大 数据 集 的 分 类 。 它 的 决策 树 归纳 与 C4.5 
很 相近 ， 但 规则 生成 不 同 。 

C5.0 包括 了 生成 规则 方面 的 改进 。 测 试 结 果 表 明 C5.0 在 内 存 占 用 方面 的 性 能 改善 
了 大 约 90%， 在 运行 方面 要 比 C4.5 快 5.7~240 倍 ， 并 且 生 成 的 规则 更 加 准确 。 

C5.0 在 精度 方面 主要 的 改进 源 于 采用 了 推进 (boosting) 方法 。 一 些 数据 集 上 的 测 
试 结果 表明 ，C5.0 的 误差 率 比 C4.5 的 一 半 还 要 低 。 
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sp 


本 节 展 示 了 一 个 在 Clementine 中 用 C5.0 算 法 对 某 银行 的 信贷 历史 记录 进行 数据 挖掘 
的 案例 ， 通 过 构建 决策 树 并 形成 规则 ， 为 银行 的 信贷 服务 提供 决策 支持 。 目 标 是 要 找 出 
银行 批准 或 否决 贷款 人 的 信用 申请 的 标准 。 

数据 来 自 芝加哥 大 学 尔 湾 分 校 知 识 发 现 数据 档案 库 UCI Knowledge Discovery in 
Databases Archive (ftp://ftp.ics.uci.edu/pub/machine-learning-databases/credit-screening/), 
存放 在 文件 crx.data 中 。 一 共 包 含 690 个 样本 ，16 个 属性 。 由 于 商业 保密 的 缘故 ， 属 性 
名 称 用 41, 42, …, 416 来 表示 ， 其 中 416 是 类 标号 属性 ， 有 两 个 取 值 :“+” 和 “一 ” “+” 
表示 信贷 申请 被 通过 ,“- ”表示 信 贷 申 请 被 否决 。 用 写字 板 可 以 打开 crx.data 文件 ， 如 
图 3.5 所 示 。 需 要 注意 的 是 ， 一 些 属性 的 值 为 “? ”， 表 示 值 缺失 。 


目 crx. data - 写字 板 
文件 四 编辑 中 查看 Q)， 插入 I) 格式 @) 天 助 中 
口 芭 加 沪 忆 入 基 革 和 鱼 汪 划 


Al, A2, A3, Ad, A5, A6, AT, A8, A9, A10, A11, A12, A13, A14, A15, A16 图 | 
b, 30. 83, 0, u, gs w v, 1. 25, t, t, 01, £, g, 00202, 0, + 司 
a, 58. 67, 4. 46, u, g, q h, 3. 04, t, +, 06, £, g, 00043, 560,+ 
a, 24. 50, 0. 5, u, g, qu h, 1. 5, t, £, 0, £, g, 00280, 824, + 
b, 27. 83, 1. 5d, u, gw w, 3. 75, t, t, 05, t, g, 00100, 3,+ 

0. 17, 5. 625, u, g, ws v, 1. 71, +, £, 0, £, s, 00120, 0,+ 


3. 17, 1. 04, u, g, r, hy 6. 5, t, £, 0, t, g, 00164, 31285, + 
22. 92, 11. 585, u, g, ce, v, 0. 04, t, £, 0, £, g, 00080, 1349, + 

b, 54. 42, 0. 5, y, p, k, h, 3. 96, t, £, 0, £, g, 00180, 314,+ 

b, 42. 50, 4. 915, y, py ww 3. 165, t, £, 0, t, g, 00052, 1442, + 


b,2! 

b, 32. 08, 4, u, gm tf 0, t, g, 00360, 0,+ 
b,3 

as 


hnanRinerh? FFFN+t annl28n+ 


要 “帮助 ”， 请 按 1 


图 3.5 原始 数据 文件 


1. 获取 数据 


打开 Clementine， 在 选项 板 区 单 击 “ 数 据 源 ” 标 签 ， 可 以 看 到 所 有 的 数据 源 节点 ， 
双击 “可 变 文件 ”图 标 ， 即 可 将 “可 变 文件 ”节点 添加 到 数据 流 区 域 (如 图 3.6 所 示 )。 

“可 变 文件 ”节点 可 以 用 于 从 无 格式 文本 文件 中 读 取 数据 。 右 击 数 据 流 区 域 中 的 “可 
变 文件 ”节点 ， 在 弹出 的 快捷 菜单 中 选择 “编辑 ”命令 ， 弹 出 “可 变 文件 ”对 话 框 ， 它 
包括 5 个 标签 :“ 文 件 ”” “数据 “过滤”“ 类 型 "” “注解 ”。 单 击 “ 文 件 ” 文 本 框 后 面 
的 “浏览 文件 ”按钮 ， 找 到 并 打开 crx.data 文件 ， 即 可 获取 数据 ， 如 图 3.7 所 示 。 

其 他 选项 保持 默认 设置 。 单 击 “ 注 解 ”标签 ， 将“ 名称” 选项 设置 为 “ 自 定义 ”， 并 
在 其 后 的 文本 框 中 输入 “crx.data 原始 数据 ”为 这 个 数据 源 节点 命名 (如 图 3.8 所 示 )， 
然后 单 击 “ 确 定 ” 按 钮 。 

现在 数据 已 经 被 读 取 到 Clementine 中 ， 如 果 此 时 想 浏览 一 下 数据 ， 可 以 向 流 中 添加 
一 个 “ 表 ” 节 点 : 在 选项 板 区 单 击 “ 输 出 ”标签 ， 可 以 看 到 所 有 的 输出 节点 ， 双 击 “ 表 ”， 
即 可 将 “ 表 ” 节 点 添加 到 数据 流 区 域 ， 并 自动 建立 从 “crx.data 原始 数据 ”到 “ 表 ” 节 点 


数据 挖掘 算法 与 Clementine 实践 


的 连接 (如 图 3.9 所 示 )。 


流 1* - Clenentine 12-0 


ODOOOOOAAA 


数 氢 认可 变 文件 | 这 桥 。 相 和 。 开 名 导出 类型 光 图 分 布 。 自 方 图 


图 3.6 添加 数据 源 节点 


DiclementineP\e Sem data 
文件 :| DiclementineiVc5Wcpcdata 图 | 
Al, A2, A3, A4, M5, AMB, AT, AB, Ag, ALD, ALL, A12, A13, AL4, A15, A16 本 
b, 30.83,0, 9, @ wv, 1.25, t, t,01, £, & 00202, 0, + 
aa 58.67, 4. 46, 1, & q, h, 3. 04, t, t, 06, £, &, 00043, 560, + 
24.50,0.5,u, & oh,1.5, t, £,0, £, & 00280, 824,+ 本 
4 » 
| 读 职 文件 中 的 字段 名 指定 字段 数 1 日 
跳 过 前 面 的 NN 个 字符 : 0| 汗 EOL 注解 字符 : 
去 除开 头 和 结尾 的 空格 : 加 无 〇 左 〇 右 〇 两 侧 
无 效 字符 : 回 委 斌 〇 苦 换 为 
编码 - 流 默认 值 ”| 小 数 符号 : 流 默认 值 一 
定 界 符 一 一 一 一 一 一 一 一 一 类 型 的 扫描 行 数 : 50 | 
空格 四 逗号 口 ] 制 表 符 引号 一 一 
中 新 行 口 其 他 单 引 号 :| 丢弃 -= 
非 打印 中 字符 双 引 号 :丢弃 = 
允许 使 用 多 个 空白 定 界 符 


文件 | 数据 | 过 源 | 类 型 | 注解 


EE 


3.7 编辑 “数据 源 节点 ” 


决策 树 


gl 


Dxclementinet 书 \c5tcrdata 


名 称 : 避 自动 回 自 定义 | crxdata 原 始 数据 


由 Administrator 创 娃 于 2009 年 8 月 7 日 下午 9:42。 ID:|id6YJNQYYHBZ6 图 
尚未 保存 此 对 象 。 


文件 | 数据 | 过 源 


类 型 | 注解 | 


| crx.data 原始 数据 


图 3.8 节点 重 命名 图 3.9 加 入 表 节 点 


右 击 数据 流 区 域 中 的 “ 表 ” 节 点 ,在 弹出 的 快捷 菜单 中 选择 “编辑 ” 命令 , 弹出 “ 表 ” 
对 话 框 ， 单 击 [E30 可] 按钮 ， 即 可 浏览 表 中 的 数据 (如 图 3.10 所 示 )， 可 以 看 到 ， 共 有 
690 个 样本 。 


用，690 多 口 
EL 编辑 E) 生 成 (G) 
A1| A2 A3 | A4| A5| A6| A7| A8 | A9| A10| A11| A12| A13| A14| A15 | A16 

675 a 37.330 2.500u 9 i h 0210f f 0f g 260 246- 把 
676 a 41.580 1.040u g aav 0665f 了 0f 9 240 237- 

677 a 30.580 10.665u g q h 0085f + 12t 9 129 3- 

678 b 19.420 7.250u 9 myY 0040f 1 1f i9 100 4c 

679 a 17.920 10.210u g ff 人 0000f 了 0f 9 0 50- 

680 a 20080 1250u g ¢ Y 0000f 了 of 9 0 0- 

581 b 19.500 0290u 9 k Y 0290f 了 0f 9 280 364- 

682 b 27830 1.000¥y p d h 3000f 了 0f 9 176 537- 

683 b 17.080 3290u g i Yv 0335f 了 ot 9 140 2 

584 b 36.420 0.750y p d Y 0585f 了 of 9 240 3 

685 b 40.580 3.290u g mv 3500f 了 ot S 400 0- 

586 b 21.080 10.085y p e h 1250f 了 0f 9 260 0- 

687 a 22670 0750u 9 ¢ Y 2000f { 2t 9 200 394- 

688 a 25.250 13.500y p 序章 2000f 1 1 9 200 1 

689 b 17.920 0205uU g aav 0040f 了 of 9 280 750- 

690 b 35000 3375u 9 ¢ h 8.290f 了 ot 9 0 0- 已 

4 Ee » 


六 
虽 


图 3.10 用 “ 表 ” 节 点 浏览 数据 


“ 表 ” 节 点 用 于 根据 数据 建立 一 个 表格 , 把 数据 显示 在 屏幕 上 , 或 者 输出 到 一 个 文件 
中 ， 供 用 户 浏览 。 浏 览 之 后 ， 节 点 可 以 保留 ， 也 可 以 删除 (选中 节点 后 按 Delete 键 )。 


2. 处 理 缺失 值 
由 于 有 缺失 值 的 样本 数量 并 不 多 ， 这 里 就 简单 地 将 这 些 样本 丢弃 。 
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双击 “记录 选项 ”标签 下 的 “选择 ”节点 好 ， 即 可 将 节点 添加 到 数据 流 区 域 ， 右 击 
“crx.data 原始 数据 ”节点 ， 在 快捷 菜单 中 选择 “连接 ”命令 ， 然 后 单 击 “ 选 择 ” 节 点 ， 
即 可 建立 由 “crx.data 原始 数据 ”节点 到 “选择 ”节点 的 连接 。 右 击 “ 选 择 ” 节 点 ， 在 快 
捷 菜 单 中 选择 “编辑 ”命令 ， 弹 出 “选择 ”对 话 框 。 在 对 话 框 中 设置 “模式 ”选项 为 “ 丢 
弃 ” 然后 在 “条 件 ” 框 中 输入 : 

Al="?" or @NULL(A2) or @NULL(A3) or A4="?" or A5="?" or A6="?" or A7="?" or 
@NULL(48) or A9="?" or A10="?" or (@NULL(A11) or A12="?" or A13="?" or @NULL(A14) 
or @NULL(A15) or A16="?" 

这 里 ，41="?" 是 一 个 逻辑 表达 式 ， 表 示 如 果 字 
符 型 属性 41 的 值 为 ^?”, 则 该 表达 式 的 值 为 True。 
@NULL(42) 表 示 如 果 数 值 型 属性 42 的 值 为 空 ， 则 
返回 True。 

通过 以 上 设置 , 即 可 将 含有 缺失 值 的 样本 全 部 
称 ” 选 择 为 “ 自 定义 ”， 将 节点 命名 为 “过 滤 缺 失 
值 ”， 然 后 单 击 “ 确 定 ” 按 钮 。 现 在 的 数据 流 如 图 图 3.11 用 选择 节点 处 理 缺 失 值 
3.11 所 示 。 

如 果 想 查看 丢弃 缺失 值 样本 后 的 数据 ， 也 可 以 像 前 面 提 到 的 方法 一 样 ， 添 加 “ 表 ” 

节点 ， 并 将 “过 滤 缺 失 值 ”节点 与 “ 表 ” 节 点 连接 ， 然 后 执行 “ 表 ” 节 点 ， 即 可 查看 到 
有 653 个 样本 ， 即 删除 了 37 个 有 缺失 值 的 样本 。 


3， 设置 输出 字段 


对 于 决策 树 算法 而 言 ， 其 目的 是 根据 一 些 非 类 标号 属性 的 值 ， 来 预测 类 标号 属性 的 
值 。 所 以 ， 应 该 把 这 些 非 类 标号 属性 设置 为 输入 字段 ， 类 标号 属性 设置 为 输出 字段 。 

设置 输出 字段 ， 需要 用 到 “类 型 ”节点 名。 双击 “字段 选项 ”标签 下 的 “类 型 ” 
点 ， 即 可 将 “类 型 ”节点 添加 到 数据 流 区 域 ， 并 建立 与 “过 滤 缺 失 值 ”节点 的 连接 。 从 
后 设置 “类 型 ” 节点 的 性， 如 图 3.12 所 示 。 

单 击 “ 读 取 值 ”按钮 ， 即 可 显示 各 字段 的 类 型 和 取 值 集合 。 可 以 看 到 主要 有 3 种 数 
据 类 型 : .范围 型 用 于 表示 数值 ;“ 集 ”型 用 于 表示 多 个 具体 值 ;“ 标 志 ” 型 用 于 表示 两 
个 具体 值 。 

最 后 ， 将 类 标号 属性 416 的 方向 设置 为 “输出 ” 单 击 “确定 ”按钮 。 


4. 设置 训练 数据 集 


到 目前 为 止 ,数据 集中 共有 653 个 样本 。 选 择 一 半 的 样本 出 来 ， 作 为 训练 数据 集 ， 
用 于 构建 决策 树 模型 。 剩 下 的 一 半 样 本 作为 测试 数据 集 , 用 生成 的 决策 树 进行 分 类 预测 ， 
以 评估 决策 树 的 性 能 。 

从 数据 集中 抽取 部 分 样本 出 来 ， 这 就 需要 用 到 “抽样 ”节点 好。 双击 “记录 选项 ” 
标签 下 的 “抽样 ”节点 ， 即 可 将 “抽样 ”节点 添加 到 数据 流 区 域 ， 并 建立 与 “类 型 ” 节 


一 全 


crx.data 原始 数据 过 滤 缺 失 值 


决策 树 


的 连接 。 然 后 设置 “抽样 ”节点 的 属性 ， 如 图 3.13 所 示 。 


证 
[0,67] 

证 
9,p,S 
[0,2000] 
[0,100000] 
np 


宫 则 则 由 同 巾 巾 巾 


回 查看 当前 字段 “CD) 查看 未 使 用 的 字段 设置 
注解 | 


图 3.12 设置 分 类 节点 的 属性 


最 大 样本 大 小 10000 


设置 随机 数 种 子 种 | 9573570 生生 成 | 


图 3.13 设置 抽样 属性 


“采用 方法 "选择 “简单 ”“ 模 式 ”选项 设置 为 “包括 样本 ”“ 样 本 "选项 设置 为 “第 
一 个 ” 并 在 文本 框 中 输入 “327”， 即 选择 前 一 半 的 样本 。 

在 “注解 ”标签 中 ， 把 该 节点 重 命名 为 “训练 数据 集 "， 然 后 单 击 “ 确 定 ”按钮 。 此 
时 的 数据 流 如 图 3.14 所 示 。 同样 ， 如 果 想 浏览 训练 数据 集 的 数据 ,可 以 在 “训练 数据 集 ” 


数据 挖掘 算法 与 Clementine 实践 


后 添加 “ 表 ” 节 点 并 执行 ， 可 以 看 到 只 有 327 条 记录 。 


了 作 一 惫 


crx.data 原始 数据 ”过滤 缺失 值 类 型 


图 3.14 数据 流 


5. 构建 决策 树 模型 


这 是 整个 案例 过 程 中 的 核心 步骤 ， 用 于 根据 对 训练 数据 集 的 学 习 来 构建 决策 树 。 这 
需要 用 到 C5.0 节点 贸 . 该 节点 使 用 C5.0 算法 生成 决策 树 或 者 规则 集 。C5.0 模型 根据 能 
够 带 来 最 大 信息 增益 的 字段 拆 分 样本 。 第 一 次 拆 分 确定 的 样本 子 集 随后 再 次 拆 分 ， 通 常 
是 根据 男 一 个 字段 进行 拆 分 , 这 一 过 程 重复 进行 直到 样本 子 集 不 能 再 被 拆 分 为 止 。 最 后 ， 
重新 检验 最 低层 次 的 拆 分 ， 那 些 对 模型 值 没有 显著 贡献 的 样本 子 集 将 被 剔除 或 者 修剪 。 

双击 “ 建 模 ”标签 下 的 C5.0 节点 ， 即 可 将 C5.0 节点 添加 到 数据 流 区 域 ， 并 自动 命 
名 为 “A16”， 同 时 建立 与 “训练 数据 集 ” 节 点 的 连接 。 双 击 “A16” 节 点 即 可 打开 其 属 
性 设置 窗口 ， 如 图 3.15 所 示 。 


全 


名 称 : @) 自动 〇 自 定义 


回 


四 


[w] 使 用 分 区 数据 
出 类 型 : @) 决策 树 〇 规则 集 
口 组 符号 
使 用 推进 试验 次 数 10 


nD no 


口交 互 验 证 折 得 次数 10 
jt: 〇 简单 @) 专家 


修 前 严重 性 : 40 同 
每 个 子 分 支 的 最 小 记录 数 : 20E 
| 使 用 全 局 修 前 辩 别 尾 性 

分 析 | 注解 


字段 | 模型 | 成 本 
CJ Cr [ma Ca Ca 


3.15 设置 C5.0 节点 的 属性 


决策 树 


使 用 分 区 数据 (Use Partitioned Data): 如 果 用 户 定义 了 分 割 数据 集 ， 选 择 训练 数据 
集 作 为 建 模 数据 集 ， 并 利用 测试 数据 集 对 模型 评价 。 

输出 类 型 : 有 两 个 选项 ， 即 决策 树 和 规则 集 。C5.0 可 以 生成 这 两 种 模型 。 决 策 树 是 
对 这 种 算法 的 拆 分 的 直观 描述 。 每 一 个 叶子 节点 描述 了 训练 数据 的 一 个 特定 子 集 ， 而 训 
练 数据 集中 的 每 一 种 情况 恰好 属于 树 上 的 一 个 叶子 节点 。 换 句 话说， 决策 树 展 示 的 任 一 
特定 数据 记录 只 有 一 种 可 能 预测 。 规 则 集 则 是 规则 的 集合 ,试图 对 单个 的 记录 做 出 预测 。 
规则 集 从 决策 树 中 推出 ， 从 某 种 意义 上 说 ， 以 一 种 简化 或 者 提炼 的 方式 陈述 决策 树 中 的 
信息 。 这 里 选择 “决策 树 ”。 

组 符号 (Group Symbolics): 如 果 选 择 了 该 选项 ，C5.0 会 尝试 将 所 有 与 输出 字段 格 
式 相似 的 字符 值 合 并 。 如 果 没 有 选择 该 选项 ，C5.0 会 为 用 于 拆 分 父 节点 的 字符 字段 的 每 
个 值 创建 一 个 子 节点 。 例如， 如 果 C5.0 按 COLOR 字段 (包括 RED、GREEN 和 BLUE 
3 个 值 ) 拆 分 ， 则 默认 创建 三 项 拆 分 。 但 是 ， 如 果 选 择 了 该 选项 ， 并 且 COLOR=RED 的 
记录 与 COLOR=BLUE 的 记录 非常 相似 , 则 将 创建 二 项 拆 分 , COLOR 为 GREEN 的 记录 
被 分 成 一 组 ， 而 COLOR 为 RED 和 BLUE 的 记录 合 为 一 组 。 

使 用 推进 : C5.0 算法 使 用 被 称 做 推进 (boosting) 的 方法 提高 其 精确 率 。 这 种 方法 
按 序列 建立 多 重 模型 。 第 一 个 模型 以 通常 的 方式 建立 。 随 后 ， 建 立 第 二 个 模型 ， 聚 焦 于 
被 第 一 个 模型 错误 分 类 的 记录 。 然 后 第 三 个 模型 聚焦 于 第 二 个 模型 的 错误 ， 等 等 。 最 后 ， 
应 用 整个 模型 集 对 样本 进行 分 类 ， 使 用 加 权 投 票 过程 把 分 散 的 预测 合并 成 综合 预测 。 助 
推 可 以 显著 提高 C5.0 模型 的 精确 度 ， 但 是 同时 也 需要 更 长 的 训练 时 间 。 实 验 次 数 〈The 
Number of Trials) 选项 允许 控制 用 于 助 推 的 模型 数量 。 

交叉 验证 〈Cross-validate): 如 果 选 择 了 该 选项 ，C5.0 将 使 用 一 组 基于 训练 数据 子 
集 建立 的 模型 ， 来 估计 基于 全 部 数据 建立 的 模型 的 精确 度 。 如 果 数 据 集 过 小 ， 不 能 拆 分 
成 传统 意义 上 的 训练 集 和 测试 集 ， 这 将 非常 有 用 。 在 计算 了 精确 度 估计 值 后 ， 用 于 交叉 
验证 的 模型 将 被 丢弃 。 可 以 指定 倍数 ， 或 用 于 交叉 验证 的 模型 数目 。 

模式 : 有 两 个 选项 ， 即 “简单 ”和 “专家 ”。 对 于 简单 的 训练 ， 可 选择 “简单 ”模式 ， 
则 绝 大 多 数 C5.0 参数 自动 设置 。 若 选择 “专家 ”模式 ， 则 可 以 设置 “修剪 严重 性 ”和 “每 
个 子 分 支 的 最 小 记录 数 ”。 其 中 ,“ 修 剪 严重 性 ”( 也 称 修剪 纯度 ，Pruning Severity) 决定 
生成 决策 树 或 规则 集 被 修剪 的 程度 ， 提 高 纯度 值 将 获得 更 小 、 更 简洁 的 决策 树 ， 降 低 纯 
度 值 将 获得 更 加 精确 的 决策 树 ; 这 里 设置 为 40。“ 每 个 子 分 支 的 最 小 记录 数 ”(Minimum 
Records Per Child Branch ) 用 于 限制 决策 树 任 一 分 支 的 拆 分 数 。 只 有 当 两 个 或 以 上 的 后 序 
子 分 支 包括 来 自 训 练 集 的 记录 不 少 于 最 小 记录 数 时 ， 决 策 树 才 会 继续 拆 分 。 默 认 值 为 2， 
提高 该 值 将 有 助 于 避免 噪声 数据 的 过 度 训练 ， 这 里 设置 为 20。 

使 用 全 局 修剪 〈Use Global Pruning)。 分 两 个 阶段 修剪 树 : 第 一 个 阶段 是 本 地 修剪， 
此 时 将 检查 子 树 并 折 和 县 分 支 以 提高 模型 的 准确 性 。 第 二 个 阶段 是 全 局 修剪 ， 在 此 阶段 中 
将 把 树 视 做 一 个 整体 并 折 三 虚弱 的 子 树 。 默 认 情 况 下 将 执行 全 局 修剪 。 要 忽略 全 局 修剪 
阶段 ， 需 要 取消 选中 此 选项 。 

辨别 属性 “Winnow Attributes)。 如 果 选 中 此 选项 ，C5.0 将 在 开始 构建 模型 之 前 检 


数据 挖掘 算法 与 Clementine 实践 


查 预 测 变量 的 有 效 性 。 如 果 发 现 不 相关 的 预测 变量 ， 则 会 将 其 从 模型 构建 过 程 中 排除 。 
此 选项 对 于 具有 许多 预测 变量 字段 的 模型 非常 有 用 ， 并 且 有 助 于 防止 过 度 拟 合 。 

单 击 对 话 框 的 “成 本 ”标签 ， 设 置 误 分 类 损失 和 矩阵， 如 图 3.16 所 示 。 

在 某 些 情况 下 ， 特 定 类 型 的 错误 比 其 他 类 错误 所 引起 的 损失 更 大 。 例 如 ， 把 高 风险 
信用 卡 申请 者 归 入 低 风 险 信用 类 (一 种 错误 ) 比 把 低 风险 信用 卡 申请 者 归 入 高 风险 类 ( 另 
一 种 错误 ) 损失 要 大 。 误 分 类 损失 允许 指定 不 同类 型 预测 错误 之 间 的 相对 重要 性 。 

误 分 类 损失 矩阵 显示 预测 类 和 实际 类 每 一 可 能 组 合 的 损失 。 所 有 的 误 分 类 损失 都 默 
认 设 置 为 1.0。 要 输入 自 定义 损失 值 ， 需 要 选择 “使 用 误 分 类 损失 ”(Use misclassification 
costs)， 然 后 把 自 定义 值 输入 到 损失 矩阵 中 。 当 对 树 进行 修剪 时 , 在 计算 误 分 类 损失 的 过 
程 中 ， 将 把 这 些 自 定义 损失 值 作为 权重 来 影响 误 分 类 损失 的 计算 结果 。 

在 本 案例 中 ， 对 银行 而 言 ， 拒 绝 “ 好 ”的 客户 和 接受 “ 坏 ” 的 客户 这 两 种 错误 造成 
的 损失 并 不 相等 。 很 显然 ， 接 受 “ 坏 ”的 客户 ， 银 行 可 能 会 遭受 较 大 的 违约 风险 ;而 拒 
绝 “ 好 ”的 客户 ， 可 能 的 损失 则 是 贷款 利息 ， 或 银行 对 客户 作 进一步 了 解 所 发 生 的 较 小 
费用 。 所 以 这 里 勾 选 “使 用 误 分 类 损失 ” 复 选 框 , 假设 接受 “ 坏 ” 客 户 的 成 本 是 拒绝 “好 ” 
客户 成 本 的 2 倍 。 

单 击 “ 执 行 ” 按 钮 ， 即 可 生成 决策 树 模型 ， 并 显示 在 管理 器 窗口 的 “模型 ”标签 下 ， 
如 图 3.17 所 示 。 


Clementine: 
EECEE 


图 3.16” 误 分 类 损失 矩阵 图 3.17 生成 的 决策 树 模型 


右 


fF 该 模型 ， 在 快捷 菜单 中 选择 “浏览 ”命令 ， 可 以 查看 生成 的 决策 树 ， 如 图 3.18 


入 


所 示 。 

在 图 3.18 中 ， 左 侧 以 层 的 形式 显示 决策 树 ， 右 侧 显示 的 是 每 个 变量 的 相对 重要 性 。 
通常 要 将 建 模 的 主要 精力 放 在 最 重要 的 变量 上 , 并 考虑 丢弃 和 删除 那些 最 不 重要 的 变量 。 
该 图 表 指 示 了 估计 模型 时 各 个 变量 的 相对 重要 性 。 由 于 这 些 值 都 是 相对 值 ， 因 此 显示 的 
所 有 变量 值 总 和 为 1.0。 变 量 重 要 性 与 模型 准确 性 无 关 。 需 要 注意 的 是 ， 在 Clementine 
建立 的 许多 模型 中 都 会 显示 变量 重要 性 ， 但 这 里 的 变量 重要 性 只 是 为 我 们 提供 关于 变量 
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重要 程度 的 参考 信息 ， 与 模型 的 应 用 无 关 。 变 量 重 要 性 的 计算 方法 ， 是 从 敏感 性 分 析 方 
法 发 展 而 来 的 ， 详 细 阅 述 请 见 相 关 文 献 (A. Saltelli ，Stefano Tarantola ，Francesca 
Campolongo, Marco Ratto.Sensitivity Analysis in Practice—A Guide to Assessing Scientific 
Models. 2004) 。 
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国文 件 ” 妇 生 成 ”视图 


日 - A15 <= 500 [模式 :+] (164) 
白 - A11 <= 3 [模式 :-] (117) Real 
A4=1 [模式 :-] 只 - (0) 
日 - A4=u [模式 : +] (90) 
一 A14 <= 80 [模式 :+] 吃 
日 - A14 > 80 [模式 :-] (52) 
一 A11 <=0 [模式 :-] 只 - ( 
A11 > 0 [模式 :+] 只 + 
A4=y [模式 :-] 吃 
A11 > 3 [模式 : +] 只 + (47;09 
A15 > 500 [模式 :+] 只 + (78;1 0) 
日 - A9 =f [模式 :-] (35) 
A4 in["P] [模式 :+] 中 + (2;10) 
A4 in["w"'Y ] [模式 :-] 史 - (83;0.855) 


查看 器 | 汇总 | 注解 


图 3.18 ”以 层 的 形式 显示 决策 树 


单 击 “ 查 看 器 ”标签 ， 则 可 以 树 的 形式 来 显示 决策 树 ， 显 示 的 方式 也 可 以 选择 横 排 
或 坚 排 ， 如 图 3.19 所 示 。 


6. 将 测试 数据 集 输入 模型 


为 了 评估 生成 的 决策 树 模 型 的 性 能 ， 我 们 把 训练 数据 集 输入 决策 树 模型 ， 用 决策 树 
模型 根据 训练 数据 集中 各 样本 的 非 类 标号 属性 的 值 来 预测 类 标号 属性 的 值 ， 并 将 预测 值 
和 实际 值 相 比较 ， 即 可 了 解 分 类 预测 的 准确 性 。 

首先 ， 把 数据 集中 除 327 个 训练 样本 之 外 的 326 个 样本 取出 ， 作 为 测试 样本 。 单 击 
“记录 选项 ”标签 下 的 “抽样 ”节点 ， 然 后 单 击 数据 流 区 域 即 可 将 “抽样 ”节点 添加 到 数 
据 流 区 域 (或 者 将 “抽样 ”节点 拖 入 数据 流 区 域 )， 建 立 从 “类 型 ”节点 到 此 抽样 节点 的 
连接 。 最 后 设置 此 抽样 节点 的 属性 ， 如 图 3.20 所 示 。 

“模式 ”选择 “丢弃 ” “样本 ”选择 “从 第 一 条 记录 开始 连续 抽取 327”， 即 把 前 327 
个 样本 丢弃 ， 得 到 剩 下 326 个 样本 ， 作 为 测试 样本 。 

然后 在 “注解 ”标签 下 ， 为 该 抽样 节点 命名 为 “测试 数据 集 *， 单 击 “确定 ”按钮 。 

把 生成 的 决策 树 模型 从 管理 器 窗口 的 “模型 ”标签 下 拖 入 数据 流 区 域 , 并 建立 从 “ 测 
试 数据 集 ” 节 点 到 决策 树 模型 节点 的 连接 。 可 以 理解 为 ， 把 测试 数据 集 输入 到 决策 树 模 
型 中 ， 为 了 浏览 决策 树 的 输出 结果 ， 可 以 将 结果 输出 到 一 个 “ 表 ” 节 点 ， 然 后 执行 这 个 
“ 表 ” 节 点 。 数 据 流 的 结果 如 图 3.21 所 示 。 
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节 ， 
类 别 


点 

% nn 
+ 73.171 120 
26.829 44 


| 总 计 50.153 164 


类 别 % 


下 + 64.957 76 
35.043 41 
总 计 35.780 117 
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类 别 % 


+ 54.054 


45946 


总 计 11315 


37 


总 计 7645 25 


图 3.19 ”决策 树 模型 


图 3.20 ”抽取 测试 数据 集 


credata 原 始 数据 过 滤 缺 失 值 


人 (2 一 和 一 


测试 数据 集 
图 3.21 数据 流 
执行 表 节 点 后 ， 可 以 看 到 输出 结果 ， 如 图 3.22 所 示 。 


国 表 (18 个 字段 ，326 条 记录 ) #2 


EL 世 生 成 (G) 


Al6 


Al| A2 | A3 |A4| AS| AB| A8 |Ag 


$C-A16, 


$CC-A16 


33.7.. 2750u 0.000f 
38.9... 1.750u 0.500f 
62.7.. 7.000u 0.000f 
26.7.. 4.500Yy 2.500f 
63.3.. 0.540u 0.585t 
27.8.. 1.500u 2.250f 
0.000f 
0.000f 
1.500f 
0.585f 
0.250f 
1.000f 
DRS 


26.1.. 2.000u 


221 0.585y 
225- 11.5..y 
307- 1.585u 
36.6 2.000u 
16.0 0165u 
A11 1 335 


EE Ee 


Es=a 
日 


0.847 
0.847 
0.847 
0.847 
0704 
0.847 
0.847 
0.847 
0.847 
0.847 
0.847 


图 3.22 ”决策 树 的 输出 结果 
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可 以 看 到 ， 在 原 有 16 个 属性 基础 上 ， 又 多 了 两 个 属性 “$C-A16”“$CC-A16”。 其 
中 ，$C-A16 是 模型 的 预测 值 (Al16 是 实际 值 )，$CC-A16 是 该 预测 值 的 置信 度 


7. 对 预测 结果 的 分 析 


对 预测 结果 进行 分 析 ， 需 要 用 到 “分 析 ” 节 点 。 将 “分 析 ” 节 点 (在 “输出 ”标签 
下 ) 拖 入 到 数据 流 区 域 , 并 建立 从 生成 决策 树 节点 A16 到 “分 析 ” 节点 的 连接 (如 图 3.23 


> 局 
一 够 一 国 一 包 一 例 


crx.data 原始 数据 。 过 滤 缺 失 值 训练 数据 集 Al6 


图 3.23 ”连接 到 “分 析 ” 节 点 的 数据 流 


编辑 “分 析 ” 节 点 的 属性 ， 如 图 3.24 所 示 。 

符合 矩阵 : 显示 对 于 符号 型 目标 变量 的 每 个 被 生成 的 (被 预测 的 ) 字段 和 它 的 目标 
字段 之 间 匹 配 的 模式 。 用 一 个 表格 来 显示 ， 它 的 行 被 定义 为 实际 值 ， 列 被 定义 为 预测 值 ， 
每 一 个 单元 格 里 是 模式 的 记录 数 。 

绩效 评价 : 对 符号 型 输出 的 模型 显示 绩效 评价 统计 量 。 这 些 统计 量 报告 输出 字段 的 

每 一 类 别 ， 是 一 种 平均 信息 量 的 度量 。 

置信 数字 : 对 于 生成 一 个 置信 度 字 段 的 模型 ， 这 个 选项 报告 通过 置信 值 上 的 统计 量 
和 它们 的 关系 来 预测 。 对 于 这 个 选项 有 两 个 设置 : 阔 值 ， 报 告 在 指定 为 百分数 的 精确 度 
以 上 的 置信 水 平 ， 改 善 准 确 性 ， 报 告 这 样 的 置信 水 平 ， 在 此 水 平 之 上 的 精度 是 由 指定 的 
因子 提高 的 。 例 如 ， 若 全 部 的 精确 度 是 90% 并 且 这 个 选项 被 设置 为 2.0， 这 个 被 报告 的 
值 将 变 为 所 要 求 的 95% 精 确 度 的 置信 度 
单 击 “ 执 行 ”按钮 后 ， 即 可 看 到 分 析 的 结果 ， 如 图 3.25 所 示 。 
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加 加 @| 
分 析 $C-A16 


符合 矩阵 ( 用 于 字符 型 目标 字段 
绩效 评价 
置信 数字 ( 如 果 可 用 ) 
赣 信 用 于 : 90 同 % 正 确 
改善 准确 性 。 2.0 | 们 折 委 
字段 使 用 : 
器 模型 输出 字段 元 涩 据 
口 字段 名 种 格式 例如 ，$<xr-< 目 标 字段 > 
回 按 分区 分 天 


段 分 解 分 析 : 


可 


可 


可 


注解 
je 执行 EE) | 取消 (C) | 应 用 凶 | 重 置 (R) | 


图 3.24 编辑 “分 析 ” 节 点 的 属性 


量 Xt© D3 昌国 S|S @ 
售 全 部 折 委 (C) | 名 全 部 展开 (E) 
日 -输出 字段 A16 的 结果 
白 -比较 $C-A16 与 A16 
正确 295 51.41%| 
错误 28 8.59% 
总 计 326 
日 -$C-A16 的 符合 矩阵 行 表示 实际 值 7 
晶 - 钙 效 评价 
+ T1226 
0.22| 
日 -$CC-A16 的 置信 度 值 报告 
[更 男 54627-0958 
平均 正确 性 0.846 
平均 不 正确 性 0.669 
始终 正确 的 置信 和 度 高 于 0.988《 观测 值 的 0% ) 
始终 错误 的 置信 度 低 于 0.462《 观测 值 的 0% ) 
91.41% 以 上 的 礁 确 性 00 
2.0 以 上 的 折 秋 正确 性 0.965《 观测 值 的 70.37% ) 
分 析 | 注解 


3.25 分析 结果 
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从 结果 可 以 看 出 ， 有 91.41% 的 测试 样本 〈298 个 ) 的 预测 值 和 实际 值 相符 ，8.59% 
的 测试 样本 (28 个 ) 的 预测 值 和 实际 值 不 符 。 在 28 个 预测 错误 的 样本 中 ,实际 值 为 “+” 
但 被 预测 为 “-” 的 样本 有 19 个 ， 实 际 值 为 “-” 但 被 预测 为 “+” 的 样本 有 9 个 。 对 预 
测 类 别 “+” 和 “-” 的 绩效 评价 统计 量 分 别 为 1.226 和 0.22。 

置信 度 值 报告 的 参数 说 明 : 

范围 ， 对 于 在 流 中 数据 的 记录 ， 显 示 置 信 值 的 最 小 和 最 大 的 值 。 

平均 正确 性 (Mean Correct): 对 于 被 正确 分 类 了 的 记录 ， 显 示 平 均 置 信 度 。 

平均 不 正确 性 (Mean Incorrect): 对 于 没 被 正确 分 类 了 的 记录 ， 显 示 平 均 置 信 度 。 

始终 正确 的 置信 度 高 于 〈Always Correct Above): 显示 一 个 置信 度 闵 值 ， 在 此 值 以 
上 的 预测 值 总 是 正确 的 以 及 满足 这 个 标准 的 个 案 的 百分数 。 

始终 错误 的 置信 度 低 于 (Always Incorrect Below): 显示 一 个 置信 度 阔 值 ， 在 此 值 以 
下 的 预测 值 总 是 错误 的 以 及 满足 这 个 标准 的 个 案 的 百分数 。 

革 % 以 上 的 准确 性 (XY % Accuracy Above): 显示 精确 度 为 卫 % 的 置信 水 平 。 对 是 对 
于 在 分 析 选 项 (Analysis Options〉 中 被 指定 的 阔 值 (Treshold for) 的 近似 值 。 

于 以 上 的 折 对 正确 性 (Fold Correct Above): 显示 了 精确 度 是 整个 数据 集 的 耻 倍 的 置 
信和 度 。 对 是 在 分 析 选 项 中 的 “改善 准确 性 ” 值 。 


€2 CART 


分 类 和 回归 树 (Classification and Regression Trees，CART， 在 Clementine 中 简写 为 
C&RT) ， 由 Breiman 等 在 1984 年 出 版 的 同名 书 中 详细 描述 。CART 算法 中 的 每 一 次 分 
裂 把 数据 分 为 两 个 子 集 ， 每 个 子 集中 的 样本 比 被 划分 之 前 具有 更 好 的 一 致 性 〈 属 于 同一 
类 别 的 样本 比例 更 高 )》。 它 是 一 个 递归 的 过 程 ， 也 就 是 说 ， 这 些 子 集 还 会 被 继续 划分 ， 
这 个 过 程 不 断 重 复 ， 直 到 满足 终止 准则 ， 然 后 通过 修剪 和 评估 ， 得 到 一 棵 最 优 的 决策 树 。 

CART 算法 根据 类 标号 属性 的 类 型 ， 可 以 构建 分 类 树 或 者 回归 树 模 型 。 当 类 标号 属 
性 是 连续 型 时 ， 生 成 的 模型 是 回归 树 ; 当 类 标号 属性 是 离散 型 时 ， 生 成 的 模型 是 分 类 树 。 

给 定 样本 集 8S， 用 CART 算法 来 构建 决策 树 的 过 程 大 致 可 以 分 为 3 个 步骤 : 生成 最 
大 树 、 树 的 修剪 和 子 树 评估 。 即 先生 成 一 棵 充分 生长 的 最 大 树 ， 然 后 根据 修剪 算法 对 最 
大 树 进 行 修剪 ， 生 成 由 许多 子 树 组 成 的 子 树 序列 ， 最 后 通过 子 树 评 估 ， 从 子 树 序列 中 选 
择 一 棵 最 优 的 子 树 作为 最 后 的 结果 。 


1. 标准 问题 集 


在 ID3 算法 中 ， 数 据 集 按 照 某 个 属性 进行 分 裂 时 ， 可 以 产生 多 个 分 支 (分 支 的 数量 
取决 于 该 属性 有 多 少 个 不 同 的 取 值 )。 但 CART 不 同 ， 它 的 每 次 分 裂 只 能 产生 两 个 分 支 ， 
所 以 CART 算法 产生 的 决策 树 是 一 棵 二 叉 树 。 

决策 树 算法 中 必 不 可 少 的 步骤 是 为 分 裂 确定 一 个 分 裂 属 性 ， 即 究竟 按照 哪 一 个 属性 
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来 把 当前 数据 集 划分 为 若干 个 子 集 ， 从 而 形成 若干 个 “树枝 ”。 同 时 ， 就 某 个 给 定 的 属性 
来 说 ， 由 于 属性 的 取 值 可 能 有 很 多 个 ， 所 以 按照 这 个 属性 来 分 裂 数据 集 的 方式 也 有 很 多 
种 ， 属 性 的 标准 问题 集 就 是 所 有 候选 分 支 方案 的 集合 。 在 CART 算法 中 ， 连 续 属 性 〈 数 
值 属 性 ) 和 离散 属性 〈 分 类 属性 ) 的 标准 问题 集 的 形式 是 不 同 的 。 

(1) 连续 属性 的 标准 问题 集 

如 果 属 性 4 是 连续 属性 ， 那 么 4 的 标准 问题 集 是 由 形 如 “Is 4<qd ?” 的 测试 条 件 构 
成 的 集合 。 首 先 将 属性 4 的 不 同 取 值 按 大 小 顺序 排列 ， 然 后 依次 计算 每 相 邻 两 个 数值 的 
平均 值 ， 组 成 新 的 序列 4'， 然 后 根据 4 产生 标准 问题 集 。 

例如 “年 龄 ”这 个 连续 属性 的 取 值 按 大 小 顺序 排列 为 {20，25，28，40,，46，55，56， 
58，60，65，70}， 那 么 中 间 值 序列 为 {22.5，26.5，34,43，50.5，55.5，57,，59,62.5， 
67.5}， 于 是 属性 4 的 标准 问题 集 为 : {Is 4<22.5, Is 4<26.5, Is 4<34, Is 4<43, Is4 
<50.5, Is A<55.5, Is 4<57, Is 4A<59, Is 4A<62.5, Is 4<67.5}。 每 一 个 标准 问题 都 是 一 
种 划分 方案 ， 例 如 “Is 4<43” 可 以 根据 年 龄 是 否 大 于 等 于 43 岁 把 数据 集 划分 为 两 个 
子 集 。 

(2) 离散 属性 的 标准 问题 集 

如 果 属 性 4 是 离散 属性 ， 那 么 4 的 标准 问题 集 是 由 形 如 “Is 4Es?” 的 测试 条 件 构 
成 的 集合 。 设 属性 4 的 不 同 取 值 组 成 的 集合 是 Sd)， 那 么 由 S(4) 的 一 些 子 集 构成 了 集合 
subset(4)，subset(4) 中 的 每 个 元 素 满足 以 下 两 个 条 件 : 

口 如 果 sEsubsetCd)， 那 么 s 关 SCd)， 且 s 关 人 。 

口 任意 两 个 元 素 SIEsubset(d) 和 szEsubsetLd)， 有 siUs 关 SCd)。 

例如 “方向 ”的 不 同 取 值 组 成 的 集合 为 { 东 , 南 , 西 , 北 }， 那 么 subset( 方 向 ={{ 东 },{ 东 ， 
南 },{ 南 },{ 东 , 西 },{ 东 , 南 , 西 },{ 南 , 西 },{ 西 )}。 于 是 属性 “方向 ”的 标准 问题 集 为 {Is 4E 
{ 东 },Is 4E { 东 , 南 },Is 4E { 南 },Is 4E { 东 , 西 },Is 4E { 东 , 南 , 西 },Is 4E { 南 , 西 }.Is 4E { 西 }}。 

注意 , 之 所 以 没有 { 西 , 北 }， 是 因为 已 经 有 了 { 东 , 南 }, 而 按照 “Is 4E { 东 , 南 }” 和 “Is 
4E { 西 , 北 }” 来 划分 的 结果 是 一 样 的 ， 这 就 是 上 面 第 二 个 约束 条 件 的 含义 所 在 。 


2.， 杂 度 削减 


前 面 提 到 过 ， 决 策 树 分 裂 的 基本 原则 是 ， 数 据 集 被 分 裂 为 若干 个 子 集 后 ， 要 使 每 个 
子 集中 的 数据 尽 可 能 的 “ 纯 ”， 也 就 是 说 子 集中 的 记录 要 尽 可 能 属于 同一 个 类 别 。 在 ID3 
算法 中 ， 曾 用 “ 炉 ” 来 度量 数据 集 随机 性 的 程度 。 在 CART 中 把 这 种 随机 性 的 程度 称 为 
“ 杂 度 ”(impurity， 也 称 为 “不 纯度 ”)， 并 且 用 “ 吉 尼 ”(gini) 指 标 来 衡量 它 。 

设 上 是 决策 树 上 的 某 个 节点 ， 该 节点 的 数据 集 为 8， 由 s 个 样本 组 成 ， 其 类 标号 属性 
具有 m 个 不 同 的 取 值 ， 即 定义 了 m 个 不 同 的 类 Ci 〈 天 1.2,…:m)。 设 属于 类 CG; 的 样本 的 
个 数 为 si。 那么 这 个 节点 的 吉 尼 指标 这 样 来 计算 : 


gini() 一 1 一 了 Cp(C ID)? ， 其 中 ，p(C,|) 一 立 表示 类 CI 在 数据 集 中 的 概率 。 


因此 , 如 果 数 据 集 5 中 的 样本 非常 平均 地 分 布 在 各 个 类 别 中 , 数据 集 的 杂 度 就 最 高 ， 
此 时 的 gini 指标 有 最 大 值 (1-1/k)， 其 中 , 表示 类 标号 有 多 少 个 不 同 的 取 值 。 如 果 全 部 
样本 都 属于 同一 类 别 ， 此 时 的 gini 指标 则 等 于 0。 
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1 于 CART 算法 生成 的 是 一 棵 二 又 树 ， 所 以 对 于 节点 上 来 说 ， 分 裂 后 将 产生 两 个 子 
节点 女 和 不 ， 设 这 两 个 子 节点 的 杂 度 分 别 为 gini(z) 和 gini(ta)， 那 么 ， 在 此 次 分 裂 过 程 中 
的 杂 度 削减 为 : 


G(S0=Sgini(0) 一 Prgini(zz) 一 PRgini(t) 

其 中 ， 产 是 上 + 中 的 样本 被 划分 到 女 的 概率 ，z 是 上 中 的 样本 被 划分 到 友 的 概率 。 

根据 每 一 个 属性 的 各 种 标准 问题 ， 计 算 在 各 种 分 支 方案 下 的 杂 度 削减 值 ， 最 后 选择 
杂 度 削减 量 最 大 的 属性 作为 分 裂 属 性 ， 相 应 的 标准 问题 就 是 最 佳 的 分 支 方案 。 

对 于 分 支 后 产生 的 子 节点 ， 采 用 上 面 同样 的 方法 ， 继 续 对 这 些 节点 进行 划分 ， 直 到 
满足 了 某 个 停止 准则 才 停止 分 裂 ， 最 后 生成 一 棵 完全 生长 的 二 叉 树 ， 这 棵 树 称 为 最 大 树 
Th 

下 面 是 一 个 计算 杂 度 削减 的 例子 : 

数据 集 8 在 节点 1 以 属性 415 根据 “<500” 和 “>500” 分 裂 为 两 个 子 集 ， 对 应 于 
节点 2 和 节点 12， 如 图 3.26 所 示 。 


节点 1 


n 
81.818 198 
18.182 44 


74.006 242 


<500.000 >500.000 
| | 
节点 2 节点 12 
% n 类 别 % n 
73.171120 | | 里 二 100.000 78 
26.829 44 国 一 0.000 0 
50.153 164 总 计 23.853 78 


3.26 ”计算 杂 度 削减 


节点 1 的 杂 度 为 ，gini (节点 1) =1 一 (0.818? 十 0.1822) = 0.298 
节点 2 的 杂 度 为 : gini (节点 2) =1 一 (0.732? +0.268?)==0.392 
节点 12 的 杂 度 为 : gini (节点 12) =1- (+03)=0 
所 以 ， 杂 度 削 减 为 : 
DB(S, 节点 1)=gini( 节 点 1)-pss ,gini( 节 点 2)-Pss gini( 节 点 12) 


=0.298 ue x0.392 a x0=0.032 
242 242 


决策 树 


3. 停止 准则 


停止 准则 用 来 控制 何 时 停止 节点 的 继续 分 裂 。 只 有 当 每 个 叶子 节点 都 促 发 了 至 少 一 
个 停止 准则 时 ， 树 的 生长 过 程 才 完 全 停止 下 来 。 对 于 一 个 节点 来 说 ， 以 下 任何 一 个 规则 
被 满足 ， 该 节点 都 将 不 再 分 裂 : 

这 个 节点 是 “ 纯 ” 的 ， 即 这 个 节点 的 所 有 样本 都 属于 同一 类 别 。 

对 于 每 一 个 属性 (不 包括 类 标号 属性 )， 节 点 中 的 所 有 样本 都 有 相同 的 值 。 

这 个 节点 所 在 的 深度 已 经 达到 “最 大 树 深度 ”( 如 果 定 义 有 )。 

这 个 节点 的 样本 数量 小 于 “ 父 分 支 中 的 最 小 记录 数 ”( 如 果 定 义 有 )。 

这 个 节点 分 裂 后 产生 的 子 节点 中 包含 的 样本 数量 小 于 预定 义 的 “ 子 分 支 中 的 最 
小 记录 数 ”( 如 果 定 义 有 )。 

口 分 裂 产生 的 杂 度 削减 小 于 预定 义 的 “最 小 杂 度 削减 ”( 如 果 定 义 有 )。 


4. 其 他 杂 度 度量 


在 Clementine 中 用 CART 建立 决策 树 模型 时 ， 对 数据 集 杂 度 的 度量 指标 有 3 种 ， 根 
据 数据 集 的 类 标号 属性 的 类 型 有 所 不 同 。 如 果 类 标号 属性 是 离散 型 ， 即 用 CART 来 构建 
分 类 树 ， 可 以 选择 “gini 指标 ”或 者 “Twoing (两 分 ) 指标 ”来 度量 杂 度 ， 如 果 类 标号 
属性 是 连续 型 , 即 用 CART 来 构建 回归 树 , 则 用 “最 小 平方 误差 (Least-Squared Deviation， 
LSD )。 

对 于 Twoing 指标 的 度量 方法 ,首先 根据 类 标号 将 数据 集 划 分 为 两 个 超 类 , 然后 在 两 
个 超 类 的 基础 上 去 寻找 能 实施 最 佳 分 裂 的 某 个 属性 。 两 个 超 类 Cl 和 C? 的 定义 如 下 : 

G={:p0lt)2p(jlis)}, CG=C-G 

其 中 , C 是 类 标号 属性 的 全 部 取 值 组 成 的 集合 ,j 表示 类 标号 的 某 个 取 值 ，p(j ti ) 表 
示 类 标号 等 于 j 的 样本 被 划分 到 子 集 女 的 概率 ，p(j|t) 表示 类 标号 等 于 j 的 样本 被 划分 
到 子 集 如 的 概率 。 

设 节点 1 以 属性 s 被 划分 为 两 个 子 集 万 和 不， 那么 Twoing 指标 为 : 

DD)= pepa| DpON) pO) 


取 使 得 B(s,?) 为 最 大 值 的 属性 s 为 分 裂 属性 。 


0O 


上 加 局 加 :总 


通过 上 面 的 步骤 , 可 以 得 到 一 棵 根据 训练 样本 集 充 分 生长 的 决策 树 一 一 最 大 树 Taax。 
所 谓 “充分 生长 ” 就 是 说 在 分 裂 生长 过 程 中 并 没有 给 予 其 他 的 限制 ， 只 是 根据 训练 样本 
集 来 不 断 分 裂 出 子 节点 。 这 样 的 充分 生长 的 决策 树 模型 往往 会 有 很 多 的 叶子 节点 。 由 于 
理解 和 解释 具有 大 量 叶子 节点 的 决策 树 是 一 个 复杂 的 过 程 ， 所 以 这 样 的 决策 树 具 有 很 高 
的 “复杂 度 ”， 复 杂 度 可 以 用 叶子 节点 的 数量 来 衡量 。 我 们 要 尝试 着 对 树 进行 修剪 ， 使 叶 
子 节点 尽 可 能 少 。 但 是 如 果 修 剪 不 当 或 者 过 度 修剪 ， 虽 然 复杂 度 降 低 了 ， 但 却 会 大 大 降 
低 决 策 树 模 型 的 分 类 精确 度 ， 导 致 一 定 的 “ 误 分 类 损失 ”， 付 出 一 定 的 “代价 ”。 
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由 于 想 让 误 分 类 损失 和 复杂 度 这 两 个 指标 都 最 小 ， 所 以 用 一 个 指标 来 综合 评估 误 分 
类 损失 和 复杂 度 ， 即 代价 复杂 度 : 
R(T)= R(T)+alT| 
其 中 ，R。(7) 是 树 的 代价 复杂 度 ，R(D) 是 树 了 的 误 分 类 损失 ，| 了 | 是 树 了 的 叶子 节 
点 数量 。a 是 复杂 度 参 数 ， 表 示 每 增加 一 个 叶子 节点 所 提高 的 代价 复杂 度 。 当 a -0 时 ， 
表示 不 考虑 节点 数量 对 代价 复杂 度 的 影响 ， 在 构建 最 大 树 的 时 候 正 是 如 此 。 显 然 ， 代 价 


复杂 度 越 小 越 好 。 
假设 决策 树 上 有 一 个 节点 请 包含 两 个 子 节点 右 和 妃 ， 如 图 3.27 所 示 。 
剪 枝 
遇 6 
<0 一 人 > 


图 3.27 决策 树 的 一 次 修剪 


把 图 3.27 中 左边 的 这 棵 树 记 做 T,， 表 示 由 节点 + 生长 出 来 的 树 ， 那 么 图 中 所 示 的 这 
次 修剪 ， 实 际 上 就 是 把 的 分 支 删 除 ， 使 节点 1 成 为 一 个 叶子 节点 。 

那么 修剪 之 前 的 代价 复杂 度 ， 也 就 是 的 代价 复杂 度 为 : 

R(T)= RT)+alF| 

修剪 之 后 的 代价 复杂 度 ， 也 就 是 节点 t 的 代价 复杂 度 〔 节 点 可 以 理解 成 “只 有 一 个 

节点 的 树 ”) 为 : 
R,({D)= RDO)+a 

显然 ， 如 果 R,( 绍 ) > R(T)， 或 者 说 ， 节 点 被 分 裂 成 树 到 之后， 使 得 代价 复杂 度 
减 小 了 , 的 存在 才 是 有 价值 的 , 就 应 该 被 保留 下 来 。 而 树 在 完全 生长 过 程 中 (此 时 &=0) 
的 每 一 次 分 裂 也 确实 保证 了 这 一 点 。 换 句 话说 ， 当 最 大 树 Tex 要 进行 修剪 的 时 候 ， 其 实 每 
个 节点 的 分 支 都 不 应 该 被 修剪 。 那 么 现在 的 问题 是 ， 选 择 树 上 的 哪 一 个 节点 进行 修剪 呢 ? 

虽然 Taax 上 的 节点 都 满足 Re( 他 )> R(T)，, 但 前 提 条 件 是 a =0。 就 Taax 上 的 某 个 节 
点 1 而 言 ， 随 着 a 的 增 大 ，Re( 他 ) 和 Re(ZD) 都 会 线性 增 大 ， 其 中 后 者 增 大 更 快 。 最 后 会 
有 一 个 闵 值 a'， 使 得 当 a a' 时 有 RR( 介 ) < R(T)。 这 表示 当 a 超过 Qa' 后 ， 如 果 修剪 
掉 节点 + 下 面 的 分 支 ， 可 以 降低 代价 复杂 度 ， 这 时 就 应 该 执行 修剪。 

根据 不 等 式 R( 俯 ) 二 R(T)， 可 以 推出 这 个 闵 值 为 : 
_ RD)— R(T) 
ZI-!1 

对 树 上 的 每 一 个 节点 ， 计 算 它们 的 这 个 阔 值 。 假 设 其 中 闽 值 最 小 的 那个 节点 为 工 ， 
它 的 阔 值 为 : 8(1)=ming(i)。 

所 以 ， 随 着 a 由 0 不断 增 大 ， 节 点 荆 是 第 一 个 使 得 R( 众 ) = R(T) 成 立 的 节点 ， 称 
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节点 过 与 树 了 具有 “最 弱 连 接 ”， 它 就 是 修剪 的 对 象 。 
有 了 这 些 背 景 知 识 ， 下 面 可 以 归纳 一 下 树 的 修剪 过 程 : 

口 令 w=0， 从 Ti=T(O) 开 始 ， 这 里 的 T(0) 就 是 最 大 树 Tas。 

口 逐渐 增 大 c ， 直 到 某 个 节点 使 得 及 (全 )=R DT) 成 立 ， 将 它 的 分 支 删除 ， 得 
到 卫 。 

口 重复 上 一 步骤 ， 直 到 被 修剪 到 只 有 一 个 根 节点 ， 从 而 得 到 一 个 树 的 序列 
TT "TE 

显然 ，T1,…,Th 都 是 Tax 的 子 树 ， 而 且 节点 数量 依次 减少 。 下 一 步 ， 要 对 这 些 子 

树 进行 评估 ， 从 中 选择 一 棵 最 优 树 作为 最 后 的 决策 树 模型 。 


子 树 评估 的 目的 就 是 从 上 面 得 到 的 子 树 序列 7,…,T; 中 ， 按 照 某 种 评估 方法 找到 
一 棵 最 优 的 树 。 简 单 地 说 ， 要 找到 一 棵 分 类 准确 性 最 好 、 同 时 节点 数量 尽量 少 的 树 。 
常用 的 评估 方法 是 计算 每 一 棵 子 树 的 误 分 类 损失 
RD= 二 并 ecClDN 


证 

其 中 ，R(D) 是 树 了 的 误 分 类 损失 ,，N 是 数据 集中 的 样本 个 数 ，c(i| 7) 是 将 类 j 误 分 类 
为 类 i 的 损失 ，Nj 表 示 将 类 j 误 分 类 为 类 i 的 样本 个 数 。 

当 样 本 数量 比较 少 的 时 候 , 可 以 直接 用 训练 样本 来 计算 这 些 树 的 误 分 类 损失 , 即 “ 重 
替代 评估 ”。 另外 ， 也 可 以 采用 交叉 验证 评估 。 

当 样本 数量 比较 多 时 ， 可 以 用 独立 于 训练 样本 的 测试 样本 来 计算 这 些 树 的 误 分 类 
损失 。 

最 后 ，R(D) 最 小 的 树 ， 就 被 选择 出 来 作为 最 优 树 。 

然而 ， 对 于 同一 棵 树 ， 不 同 的 数据 集 计 算出 来 的 误 分 类 损失 往往 就 不 同 。 说 到 底 ， 
这 里 计算 出 来 的 误 分 类 损失 其 实 都 是 一 个 估计 值 。 或 许 存 在 这 样 一 棵 树 ， 虽 然 它 的 误 分 


因此 ，Breiman 等 提出 了 所 谓 的 1SE 规则 (One Standard Error)。 既 然 误 分 类 损失 是 
一 个 估计 量 ， 那 么 可 以 计算 出 它 的 标准 误 〈Standard Eror)， 记 做 SE(R(D))， 然 后 先 把 那 
些 误 分 类 损失 落 在 区 间 [min R(T),min R(T) 十 SE(R(T))] 中 的 树 挑选 出 来 ( min RCN) 是 


棵 子 树 的 误 分 类 损失 中 的 最 小 值 ), 最 后 从 这 些 树 中 选择 那个 节点 数量 最 少 的 树 , 成 为 最 
后 的 决策 树 模型 。 也 就 是 说 ，1SE 规则 扩大 了 最 优 树 的 选择 范围 ， 而 不 是 直接 选择 误 分 
类 损失 最 小 的 树 。 

在 CART 的 应 用 中 ， 默 认 使 用 一 倍 标准 误 ， 用 户 也 可 以 自行 指定 多 倍 标准 误 。 综 合 
这 些 情况 ， 子 树 评估 就 是 从 子 树 序列 中 挑选 出 满足 以 下 公式 的 规模 最 小 的 树 : 

RO ) < min RU) + mxSE(R(T)) , Topt 就 是 最 优 树 。 


其 中 , m 默认 为 1。 如 果 m=0， 表示 直接 根据 误 分 类 损失 来 选择 最 优 树 。 当 m>1 时 ， 
m 越 大 ， 则 最 优 树 的 规模 越 小 (和 误 分 类 损失 最 小 的 那 棵 树 相 比 )。 


数据 挖掘 算法 与 Clementine 实践 
这 种 选择 机 制 的 好 处 在 于 ， 它 可 以 避免 选择 那些 过 度 拟 合 或 者 拟 合 不 足 的 树 。 


这 是 一 个 利用 CART 进行 市 场 分 析 的 案例 。 其 研究 目的 是 根据 调查 数据 构建 一 个 分 
类 树 模型 ， 来 预测 哪些 客户 有 意向 订购 一 个 电视 新 闻 服 务 。 该 案例 在 Clementine 的 自 带 
文档 中 有 所 描述 。 

数据 集 存放 在 文件 ..\clementine12.0\Demos\NewsChan.sav 中 ， 是 Clementine 的 自 带 
文件 。 该 数据 集 的 属性 包括 : EDUCATE 〈 受 教育 年 限 )、GENDER (性 别 )、AGE (年 
龄 )、TVDAY (每 天 看 电视 的 时 间 长 度 ， 即 小 时 数 )、ORGS 〈 组 织 编号 )、CHILDS (和 孩 
子 的 个 数 ) INC (收入 ) NEWSCHAN (类 标号 属性 , 表示 是 否 愿意 订购 有 线 新 闻 服 务 )。 

完整 的 数据 流 如 图 3.28 所 示 。 


图 一 兮 一 今 


NewsChan.sav 类 型 NEWSCHAN 


x 一 一 | 车 
KE NEWSCHANI 表 


图 3.28 市 场 分 析 案 例 数据 流 
下 面 着 重 阐述 具体 的 建 模 和 分 析 过 程 。 
1. 构建 决策 树 


(1) 在 数据 流 区 域 添加 “SPSS 文件 ”节点 ， 并 编辑 其 属性 ， 导 入 Demos 文件 夹 中 
的 NewsChan.sav 文件 。 如 果 想 浏览 数据 ， 可 以 在 其 后 添加 “ 表 ” 节 点 并 执行 。 

(2) 在 数据 流 区 域 添加 “类 型 ”节点 ， 并 编辑 其 属性 ， 单 击 “ 读 取 值 ”按钮 ， 然 后 
将 NEWSCHAN 字段 的 “类 型 ”设置 为 “标志 ”型 ， 并 把 “方向 ”设置 为 “输出 ”( 如 
图 3.29 所 示 )。 

(3) 添加 C&RT 节点 ， 并 建立 从 “类 型 ”节点 到 C&RT 节点 的 连接 。 编辑 C&RT 节 
点 。 在 “模型 ”标签 下 ， 选 中 “启动 交互 会 话 ” 单 选 按钮 (如 图 3.30 所 示 )， 这 样 在 执 
行 该 节点 时 会 启动 “交互 树 ” 窗 口 ， 允 许 用 户 在 生成 模型 之 前 进行 一 些 编辑 操作 。 


审定 册 由 巾 巾 则 叫 


图 3.29 编辑 “类 型 ”节点 


模型 名 称 : @) 自动 〇 自 定义 

辐 使 用 分 区 数据 

模式 。 〇 生成 模型 [启动 交互 会 话 

使 用 树 指令 指令 

最 大 树 状 图 深度 ; 
根 以 下 的 层 : 5 图 


字段 | 模型 | 专家 注解 


一 rr | 申 」 吉 | 


图 3.30 设置 “启动 交互 会 话 ” 


在 “专家 ”标签 下 ， 选 中 “专家 ”模式 ， 可 由 用 户 自己 来 设置 一 些 参数 (如 图 3.31 
所 示 )。 

最 大 代用 项 (Maxmum Surrogates): 代理 是 处 理 缺失 值 的 一 种 方法 。 对 于 树 中 的 
每 一 次 拆 分 ， 分 类 回归 树 识别 与 拆 分 字段 最 相似 的 输入 字段 ， 这 些 字段 是 该 拆 分 字段 的 
代理 。 如 果 必 须 对 某 一 记录 分 类 ， 而 该 记录 拆 分 字段 有 缺失 值 ， 则 该 记录 拆 分 字段 的 代 
理 字段 值 可 用 于 拆 分 。 提 高 该 项 设置 值 使 对 缺失 值 的 处 理 更 加 灵活 ， 但 是 也 可 能 增加 内 
存 使 用 大 小 和 训练 次 数 。 这 里 设置 为 5。 

dt (Minimum Change Im Impurity): 指定 在 树 中 进行 新 的 拆 分 所 需 的 

杂 度 改变 量 。 如 果菜 一 分 支 的 最 优 拆 分 引起 的 杂 度 改变 量 低 于 指定 值 ， 则 不 会 进行 
pe 这 里 设置 为 0.003。 增 大 这 个 数值 会 阻止 那些 杂 度 改变 很 小 的 分 裂 ， 从 而 趋向 于 生 
成 一 棵 简单 的 树 。 
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“分 类 目标 的 杂质 测量 ”选择 Gini 单 选 按钮 ， 即 用 gini 指标 来 度量 杂 度 。 
选中 “修剪 树 ” “使 用 标准 误 规 则 ” 复 选 框 ,“ 乘 数 ”默认 为 1.0， 即 使 用 1 倍 标 


单 击 “ 正 在 停止 ……” 按 钮 ， 可 以 设置 停止 标准 〈 如 图 3.32 所 示 )。 当 节点 触发 任 一 
准则 时 ， 该 节点 则 停止 分 裂 。 


今 C&RT: 停止 标准 
〇 使 用 百分比 

父 分 支 (%) 中 的 最 小 记录 数 
子 分 支 (%) 中 的 最 小 记录 数 


§ 


0.00300000 
加 cn O 〇 两 分 


@ 使 用 绝对 值 
父 分 支 中 的 最 小 记录 数 ; 
子 分 支 中 的 最 小 记录 数 ; 


图 3.31 设置 专家 模式 下 的 参数 图 3.32 设置 停止 标准 


父 分 支 中 的 最 小 记录 数 (Minimum Records In Parent Branch) 避免 在 被 拆 分 节点 ( 父 
节点 ) 记录 数 小 于 指定 值 时 对 该 节点 的 拆 分 。 

子 分 支 中 的 最 小 记录 数 (Minimum Records In Child Branch) 避免 在 拆 分 节点 所 生成 
每 一 分 支 记录 数 均 小 于 指定 值 时 对 该 节点 的 拆 分 。 

设置 最 小 记录 数 可 以 采用 百分比 方式 或 者 绝对 值 方式 。 

(4) 执行 该 节点 ， 将 打开 交 os (如 图 3.33 所 示 )， 人 允许 用 户 进行 一 些 编辑 操作 。 


国文 件 “ 门 编 生 ”cf 视图 村 全 生成 | 国 国 汉 


ESISSON OIC: OOM 


0.000 51.357 227|: 
1.000 48.643 215|: 


总 计 100.000 442|: 


上 C&R Tree 模型 训 纺 数据 


EE 


3.33 ”交互 树 窗口 


决策 树 


可 以 看 到 现在 只 生成 了 一 个 根 节点 。 统 计数 据 表示 ， 训 练 数据 集 包 含 442 个 样本 。 
由 于 树 还 没有 开始 分 裂 ， 全 部 样本 均 属 于 该 节点 。 在 全 部 样本 中 ， 有 215 个 样本 表示 愿 
意 订购 服务 ， 响 应 比例 为 48.643%。 

在 “ 树 ” 菜 单 中 选择 “生长 树 并 修剪” ， 即 可 生成 一 棵 决策 树 〈 如 图 3.34 所 示 )， 树 
深 为 5 层 ， 叶 子 节点 有 5 个。 


AGE 
改进 =0.055 


<40.500 >40.500 


节点 1 节点 2 
类 别 % _n|| 类 别 % _n 
0.000 65.490 187| |a0.000 32.086 60 
加 1.000 34.510 88| |m1.000 67.914 127 
总 计 57.692255| | 总 计 42.308 187 
T = 
INC 
改进 =0.009 


节点 3 节点 4 
类 别 % nm|| 类 别 % n 
0.000 80.328 49| |@0.000 60.825 118 
加 1.000 19.672 12| |m1.000 39.175 76| 
总 计 13.801 61| | 总 计 43.891 194 
| 


EDUCATE 
改进 =0.009 


<12.500 >12.500 


节点 7 节点 8 
类 别 % nm|| 类 别 % _n 
0.000 74.627 50| | 十 0.000 53.543 68 
加 1.000 25.373 17| | 目 1.000 46.457 59 
总 计 15.158 67| | 总 计 28.733 127 
os 


<0.500 >0.500 


节点 13 节点 14 
类 别 % _n|| 类 别 % nm 
0.000 39.535 17| |® 0.000 60.714 51 
m1.000 60.465 26| | 1.000 39.28633 


总 计 9.72943| | 总 计 19.005 84 


3.34 生成 决策 树 
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决策 树 的 显示 大 小 〈 缩 放 )、 方 向 〈 由 上 至 下 、 由 左 至 右 ) 皆 可 调节 。 
2. 对 决策 树 的 分 析 


从 上 面 的 决策 树 可 以 看 出 ， 样 本 集 首 先 按照 年 龄 分 裂 ， 然 后 按照 收入 分 裂 。 从 节点 
2 可 以 看 出 ， 如 果 把 年 龄 限制 在 40.5 岁 以 上 ， 响 应 率 将 提高 到 67.914%。 

虽然 年 龄 小 于 40.5 的 人 群 响应 率 要 低 得 多 ， 但 是 如 果 再 加 以 一 些 条 件 的 限制 ， 同 样 
还 可 以 提高 响应 率 ， 比 如 节点 13 的 响应 率 就 达到 了 60.465%。 

下 面 来 分 析 一 下 这 棵 树 的 收益 表 。 收 益 比 例 可 以 告诉 人 们 ， 对 于 某 个 类 别 的 样本 ， 
它们 在 某 个 分 支 节点 中 的 比例 和 在 根 节点 中 的 比例 相 比 ， 究 竟 有 多 大 的 提高 。 

(1) 单 击 交互 树 窗口 的 “增益 ”标签 ， 就 可 以 得 到 收益 表 ， 选 择 “ 目 标 类 别 ” 为 1.0 
(如 图 3.35 所 示 )。 


时 了 EWS5CHAN 的 交互 树 


目标 变量 : NEWSCHAN 目标 类 别 : 1.0 


收益 :n | 收益 (%) 指数 (%) 
127.00 59.07 139.62 
26.00 12.09 124.31 
33.00 15.35 80.76 
17.00 7.91 52.16 
12.00 5.58 40.44 


图 3.35 收益 表 


表 中 按照 降序 列 出 了 5 个 叶子 节点 的 相关 参数 值 。 下 面 以 节点 13 为 例 , 来 说 明 表 中 
的 这 些 参 数 的 含义 : 
节点 :n (43.00): 节点 13 中 一 共有 43 个 样本 。 
节点 (%) (9.73 ): 节点 13 中 的 样本 量 占 总 样本 量 的 9.73%。 
收益 :n (26.00): 节点 13 中 有 26 个 样本 类 别 为 “1.0”。 
收益 (%) ( 12.09 ): 由 于 在 节点 13 中 有 26 个 样本 类 别 为 “1.0?， 而 在 根 节点 中 
有 215 个 样本 类 别 为 “1.0”"， 这 两 个 数 的 比值 为 : 26/215=12.09%。 
响应 (%) ( 60.47 ): 节点 13 中 有 60.47% 的 样本 ,其 类 别 为 “1.0”，26/43=60.47%。 
间 数 (%) ( 124.31 ): 由 于 在 节点 13 中 有 60.47% 的 样本 类 别 为 “1.0”， 而 在 根 节 
点 中 有 48.643% 的 样本 类 别 为 “1.0”， 这 两 个 数 的 比值 为 : 60.47%/48.643%= 
124.31%。 这 个 参数 表示 ， 对 一 些 属 性 进行 限制 之 后 得 到 的 样本 集 和 初始 样本 集 
相 比 ， 响 应 率 提高 了 124.31%。 
从 表 中 可 以 看 出 ， 节 点 2 和 节点 13 具有 最 高 的 指标 值 。 它 们 的 指标 值 大 于 100%， 


GD 


OD 


Gl 
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这 就 表示 从 这 些 节点 中 随机 抽取 的 用 户 和 从 根 节 点 中 随机 抽取 的 用 户 相 比 ， 会 有 更 高 的 

几率 接受 新 闻 订 购 服务 。 比 如 节点 2， 该 节点 中 的 用 户 接受 订购 服务 的 几率 比 根 节点 中 

的 样本 高 1.39 倍 。 

(2) 在 交互 树 窗口 “增益 ” 标签 中 单 击 “ 分 位 数 ” 按钮 国 , 并 从 下 拉 列 表 中 选择 “十 

分 位 数 ” 然后 单 击 “ 图 表 ” 按 钮 [ 司 ， 并 从 旁边 的 下 拉 列 表 中 选择 “提升 ” 就 可 以 看 到 
指数 的 提升 图 (如 图 3.36 所 示 )。 
佑 MEYSCHAN 的 交互 树 

国文 件 “ 口 编 辑 视图 权 要 生成 


目标 变量 : NEWSCHAN 目标 类 别 : 1.0 


格 数 图 稚 
目标 宇 谍 : NEWSCHAN 目标 类 别 : Yes 
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目 分 位 数 
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Lasj 


3.36 ”指数 提升 图 


Lift (提升 指数 ) 是 评估 一 个 预测 模型 是 否 有 效 的 一 个 度量 ， 这 个 比值 由 运用 和 不 运 
用 这 个 模型 所 得 来 的 结果 计算 而 来 。 

在 指数 提升 图 中 ， 横 坐标 是 抽取 样本 数 的 百分比 ， 纵 坐标 是 指数 值 。 从 图 中 可 以 看 
出 ， 可 以 找到 大 约 50% 的 响应 概率 较 高 的 样本 (由 节点 2 和 节点 13 组 成 ) 来 使 效率 提 
高 约 140%。 


3. 生成 “选择 ”节点 


既然 节点 2 和 节点 13 的 样本 是 “优质 ”样本 ,可 以 根据 它们 的 属性 条 件 来 自动 生成 
一 个 “选择 ”节点 。 用 这 个 节点 ， 可 以 直接 从 测试 样本 集 或 者 预测 样本 集中 选择 出 响应 
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概率 较 高 的 样本 。 操 作 步 骤 如 下 : 

(1) 在 交互 树 窗口 的 “查看 器 ”标签 下 ， 先 单 击 选中 节点 2， 然 后 按 住 Ctrl 键 不 放 ， 
单 击 节点 13。 这 样 ， 两 个 节点 都 被 选中 。 

(2) 单 击 “ 生 成 ”菜单 下 的 “选择 节点 ”命令 ， 即 可 在 数据 流 区 域 生成 一 个 “选择 ” 
节点 。 双 击 该 节点 ， 可 以 看 到 该 节点 中 自动 生成 的 选择 条 件 ， 如 图 3.37 所 示 。 


| 


令 (已 生成 ) 


| 模式 : 加 包括 口技 弃 


AGE > 40.5 or AGE <= 40.5 and member(NC, [2, 3, 4, 5, 6]) and EDUCATE 
必 件 |- 12.5 and ORGS <= 0.5 


NE 


图 3.37 自动 生成 的 选择 条 件 


如 果 此 时 建立 由 “类 型 ”节点 到 这 个 “选择 ”节点 的 连接 ， 再 在 “选择 ”节点 后 面 


连接 一 个 表 节 点 (如 图 3.28 所 示 ) 并 执行 表 节 点 ， 即 可 看 到 从 训练 样本 集中 选择 出 来 的 
“优质 ”样本 。 
4. 生成 模型 


(1) 单 击 交 互 树 窗口 中 “生成 ”菜单 下 的 “生成 模型 ”命令 ， 打 开 “ 生 成 新 的 模 
型 ”对 话 框 ， 如 图 3.38 所 示 。 


名 称 回 穗 O 自 定义 
在 以 下 位 置 凶 建 节点 : 〇 工作 区 〇 GM 选 项 板 回 阿 才 


包括 树 指令 
[mL 


3.38 “生成 新 的 模型 ”对 话 框 


“模型 名 称 ” 可 以 选择 “自动 ” 也 可 以 选择 “ 自 定义 ”并 输入 名 称 。 创 建 节点 位 置 
如 果 选 择 “ 工 作 区 ”将 在 数据 流 区 域 产生 模型 节点 ， 如 果 选 择 “GM 选项 板 ”， 则 在 管 
理 器 窗口 的 “模型 ”标签 下 产生 ;也 可 以 选择 “两 者 ”， 则 在 两 个 位 置 同时 产生 。 
(2) 建立 由 “类 型 ”节点 到 新 产生 的 NEWSCHAN1 之 间 的 连接 ( 见 图 3.28)， 即 把 
1 练 数据 集 带 入 生成 的 决策 树 模型 。 再 在 NEWSCHANI1 之 后 连接 一 个 表 节 点 并 执行 之 ， 
即 可 看 到 训练 数据 集中 每 个 样本 的 分 类 结果 和 置信 度 ， 如 图 3.39 所 示 。 


一 


决策 树 


0 日 

国文 件 吕 “ 癌 编 辐 日 “已 生 成 GO) 国名 的 2 
EDUCATE GENDER AGE| TVDAY ORGS|cHILD INC| NEWSCHAN| $R-NEWSCHAN| SRC-NEWSCHAN| 

了 0 35 1 0 1 4 1 1 0.600 | 本 

2 12| 1 25| 9 0 0 省 0 0 0.794 区 
加 14 1 64 2 1 2 5 1 1 0.677 
4 9 0 72| 2 2 0 3| 1 0.677 
5 12 1 67 4 0 5 $n 1 1 0.677 
6 15 0 3 2 0 0 6 1 1 0.600 
7 14 0 23 4 0 DE 0 1 0.600 
8 14 0 60 1 0 时 §| 0 1 0.677 
9 9 0 77 4 0 2 $n. 1 1 0.677 
14 1 52 2| 1 2 中 1 0.677 
14 1 37 9 2 i 3| 0 0 0.605 
16 1 58 3 1 3 引 0 1 0.677 

13 0 4 1 0 1—4 1 i B77 


图 3.39 ”对 训练 样本 的 分 类 结果 


其 中 ,NEWSCHAN 列 是 实际 值 ， SR-NEWSCHAN 列 是 预测 值 ，$SRC- NEWSCHAN 


第 4 章 聚 类 分 析 
ED 聚 类 分 析 概 述 


1. 无 指导 学 习 


聚 类 与 第 3 章 讨论 的 分 类 有 相似 之 处 ， 都 是 将 数据 进行 分 组 ， 但 两 者 又 有 本 质 的 区 
别 。 分 类 中 的 组 (类别 ) 是 事先 已 经 定义 好 的 , 但 聚 类 中 的 组 (在 聚 类 分 析 中 称 为 “入”) 
不 是 预先 定义 的 ， 而 是 根据 实际 数据 的 特征 按照 数据 之 间 的 相似 性 来 定义 的 。 

在 分 类 问题 中 ， 训 练 样本 的 分 类 属性 (类 标号 ) 的 值 是 已 知 的， 而 在 聚 类 问题 中 ， 
需要 在 训练 样本 中 确定 这 个 分 类 属性 值 。 采 用 聚 类 分 析 技 术 ， 可 以 把 无 标识 的 数据 样本 
自动 划分 为 不 同 的 类 ， 并 且 可 以 不 受 人 的 先 验 知识 的 约束 和 干扰 ， 从 而 获取 属于 数据 集 
中 原本 存在 的 信息 。 

所 以 说 ， 聚 类 是 一 种 无 指导 学 习 (无 监督 学 习 ), 分 类 则 是 一 种 有 指导 学 习 (有 监督 
学 习 )。 无 指导 学 习 是 从 样本 的 特征 向 量 出 发 研究 通过 某 种 算法 将 特征 相似 的 样本 聚集 在 
一 起 ， 从 而 达到 区 分 具有 不 同 特征 样本 的 目的 ， 有 指导 学 习 的 最 大 特点 是 具有 先 验 知识 
(类 标号 )， 而 无 监督 聚 类 学 习 并 不 具有 这 种 先 验 知识 。 无 指导 学 习 主要 用 于 聚 类 ， 有 指 
导 学 习 主 要 用 于 回归 与 分 类 问题 。 


2. 聚 类 分 析 的 定义 


聚 类 分 析 (Cluster Analysis) 又 称 群 分 析 ， 是 根据 “ 物 以 类 聚 ” 的 道理 ， 对 样品 或 
指标 进行 分 类 的 一 种 多 元 统计 分 析 方 法 。 通 过 聚 类 分 析 ， 可 以 在 没有 任何 模式 可 供 参考 
或 依循 , 即 在 没有 先 验 知识 的 情况 下 , 将 大 量 数据 样本 按 各 自 的 特性 来 进行 合理 的 分 类 。 

聚 类 , 就 是 把 整个 数据 集 分 成 不 同 的 “ 簇 ”, 并 且 要 使 簇 与 簇 之 间 的 区 别 尽 可 能 的 大 ， 
而 簇 内 的 数据 的 差异 尽 可 能 的 小 。 簇 是 数据 样本 的 集合 ， 聚 类 分 析 使 得 每 个 簇 内 部 的 样 
本 之 间 的 相关 性 比 与 其 他 簇 中 样本 之 间 的 相关 性 更 紧密 ， 即 簇 内 的 任意 两 个 样本 之 间 具 
有 较 高 的 相似 度 ， 而 属于 不 同 艇 的 两 个 样本 间 具 有 较 高 的 相 异 度 。 相 蜡 度 可 以 根据 描述 
样本 的 属性 值 来 计算 ， 样 本 间 的 “距离 ”是 最 常 采用 的 度量 标准 。 

在 开始 聚 类 之 前 , 用 户 并 不 知道 要 把 数据 集 分 成 几 个 禾 , 也 不 知道 划分 的 具体 标准 ， 
在 聚 类 分 析 时 数据 集 的 特征 是 未 知 的 ， 聚 类 算法 的 任务 正 是 要 发 现 这 些 特征 ， 并 把 具有 
相同 特征 的 数据 样本 聚 在 一 起 。 

聚 类 分 析 的 数学 定义 如 下 : 


聚 类 分 析 


给 定数 据 集 天 {51,52…,sm}， 其 中 si 二 1,2,…,n) 为 数据 样本 。 根 据 数据 样本 之 间 
的 相似 程度 将 数据 集 分 成 上 个 艇 : CuC>,…,Ck， 且 满足 : 
天 
GEV; GNC=2; YG=r, 1<i<k, 1<j<k, i#j. 


3. 聚 类 分 析 的 特征 


聚 类 分 析 是 根据 事物 本 身 的 特性 研究 个 体 的 一 种 方法 , 目的 在 于 将 相似 的 事物 归 类 。 
它 的 原则 是 同一 类 中 的 个 体 有 较 大 的 相似 性 ， 不 同类 的 个 体 差异 性 很 大 。 这 种 方法 有 以 
下 3 个 特征 : 

(1) 适用 于 没有 先 验 知识 的 分 类 。 如 果 没 有 这 些 事先 的 经 验 或 一 些 国际 标准 、 国 内 
标准 、 行 业 标准 ， 分 类 便 会 显得 随意 和 主观 。 这 时 只 要 设 定 比较 完善 的 分 类 变量 ， 就 可 
以 通过 聚 类 分 析 法 得 到 较为 科学 合理 的 类 别 。 

(2) 可 以 处 理 多 个 变量 决定 的 分 类 。 例 如 ， 要 根据 消费 者 购买 量 的 大 小 进行 分 类 比 
较 容 易 ， 但 如 果 在 进行 数据 挖掘 时 ， 要 求 根 据 消费 者 的 购买 量 、 家 庭 收入 、 家 庭 支出 、 
年 龄 等 多 个 指标 进行 分 类 通常 比较 复杂 ， 而 聚 类 分 析 法 可 以 解决 这 类 问题 。 

(3) 聚 类 分 析 法 是 一 种 探索 性 分 析 方法 ， 能 够 分 析 事 物 的 内 在 特点 和 规律 ， 并 根据 
相似 性 原则 对 事物 进行 分 组 ， 是 数据 挖掘 中 常用 的 一 种 技术 。 


聚 类 分 析 的 研究 已 经 有 很 多 年 的 历史 ， 研 究 成 果 主 要 集中 在 基于 距离 和 基于 相似 度 
的 方法 上 ， 也 产生 了 大 量 的 聚 类 算法 。 算 法 的 选择 取决 于 数据 的 类 型 、 聚 类 的 目的 和 应 
用 。 如 果 聚 类 分 析 被 用 做 描述 或 探查 的 工具 ， 可 以 对 同样 的 数据 尝试 多 种 聚 类 算法 ， 以 
发 现 数据 中 隐藏 的 规律 。 

大 体 上 ， 主 要 的 聚 类 算法 可 以 划分 为 如 下 几 类 : 

1. 划分 方法 〈Partitioning Method) 


给 定 一 个 包含 n 个 样本 的 数据 集 ， 划 分 方法 将 构建 数据 集 的 个 划分 ， 每 个 划分 表 
示 一 个 徐 ， 同 时 满足 如 下 的 要 求 : 

(1) 每 个 组 至 少 包含 一 个 样本 。 

(2) 每 个 样本 必须 属于 且 只 属于 一 个 簇 。 

注意 在 某 些 模糊 划分 技术 中 第 二 个 要 求 可 以 放宽 。 

给 定 要 构建 的 划分 的 数目 k， 划 分 方法 首先 创建 一 个 初始 划分 。 然 后 采用 一 种 兴 代 
的 重 定位 技术 ， 尝 试 通过 对 象 在 划分 间 移 动 来 改进 划分 。 一 个 好 的 划分 的 一 般 准 则 是 : 
在 同一 个 类 中 的 对 象 之 间 尽 可 能 “接近 ”或 相关 ， 而 不 同类 中 的 对 象 之 间 尽 可 能 “远离 ” 
或 不 同 。 还 有 许多 其 他 划分 质量 的 评判 准则 。 

典型 的 划分 方法 包括 : K-Means、 K-Medoids、 CLARA (Clustering Large Application )、 
CLARANS (Clustering Large Application based upon Randomized Search)、FCM 等 。 


数据 挖掘 算法 与 Clementine 实践 


2. 层次 的 方法 (Hierarchical Method) 


层次 的 方法 对 给 定数 据 集 进 行 层次 的 分 解 。 根 据 层次 的 分 解 过 程 不 同 ， 层 次 的 方法 
可 以 分 为 凝聚 的 和 分 裂 的。 凝聚 的 方法 ， 也 称 为 自 底 向 上 的 方法 ， 一 开始 将 每 个 样本 作 
为 单独 的 一 个 组 ， 然 后 相继 地 合并 相近 的 对 象 或 组 ， 直 到 所 有 的 组 合并 为 一 个 〈 层 次 的 
最 上 层 )， 或 者 达到 一 个 终止 条 件 。 分 裂 的 方法 ， 也 称 为 自 顶 向 下 的 方法 ， 一 开始 将 所 有 
的 样本 置 于 一 个 筷 中 ， 在 迭代 的 每 一 步 中 ， 一 个 徐 被 分 裂 为 更 小 的 筷 ， 直 到 最 终 每 个 样 
本 在 单独 的 一 个 簇 中 ， 或 者 达到 一 个 终止 条 件 。 

层次 的 方法 的 缺陷 在 于 ， 一 旦 一 个 步骤 〈 合 并 或 分 裂 ) 完成 ， 它 就 不 能 被 撤销 。 这 
个 严格 规定 是 有 用 的 ， 由 于 不 用 担心 组 合 数目 的 不 同 选择 ， 计 算 代价 会 较 小 。 但 是 ， 该 
方法 的 一 个 主要 问题 是 它 不 能 更 正 错误 的 决定 。 有 两 种 方法 可 以 改进 层次 聚 类 的 结果 ， 
其 一 ， 在 每 层 划分 中 ， 仔 细 分 析 对 象 间 的 “连接 ”， 例 如 CURE (Clustering Using 
Reprisentatives) 和 Chameleon 中 的 做 法 ;其 二 ， 综 合 层 次 凝聚 和 迭代 的 重 定 位 方法 ， 首 
先 用 自 底 向 上 的 层次 算法 ， 然 后 用 迭代 的 重 定位 来 改进 结果 。 例 如 在 BIRCH (Balanced 
Iterative Reducing and Clustering using Hierarchies) 中 的 方法 。 


3. 基于 密度 的 方法 (Density-based Method ) 


绝 大 多 数 划 分 方法 基于 样本 之 间 的 距离 进行 聚 类 。 这 样 的 方法 只 能 发 现 球 状 的 艇 ， 
而 在 发 现任 意 形状 的 禾 上 遇 到 了 困难 。 随 之 提出 了 基于 密度 的 另 一 类 聚 类 方法 ， 其 主要 
思想 是 : 只 要 临近 区 域 的 密度 〈 对 象 或 数据 点 的 数目 ) 超过 某 个 阐 值 ， 就 继续 聚 类 。 也 
就 是 说 ， 对 给 定 类 中 的 每 个 数据 点 ， 在 一 个 给 定 范围 的 区 域 中 必须 至 少 包含 某 个 数目 的 
点 。 这 样 的 方法 可 以 用 来 过 滤 “ 品 声 ” 孤 立 点 数据 ， 发 现任 意 形 状 的 簇 。 

DBSCAN (Densit-based Spatial Clustering of Application with Noise) 是 一 个 有 代表 性 
的 基于 密度 的 方法 ， 它 根据 一 个 密度 阔 值 来 控制 簇 的 增长 。OPTICS (Ordering Points To 
Identify the Clustering Structure) 是 另 一 个 基于 密度 的 方法 ， 它 为 自动 的 和 交互 的 聚 类 分 
析 计 算 一 个 聚 类 顺序 。 


4. 基于 网 格 的 方法 (Grid-based Method ) 


基于 网 格 的 方法 把 样本 空间 量化 为 有 限 数目 的 单元 ， 形 成 了 一 个 网 格 结构 。 所 有 的 
聚 类 操作 都 在 这 个 网 格 结构 〈 即 量化 的 空间 ) 上 进行 。 这 种 方法 的 主要 优点 是 它 的 处 理 
速度 很 快 , 其 处 理 时 间 独 立 于 数据 样本 的 数目 ， 只 与 量化 空间 中 每 一 维 的 单元 数目 有 关 。 

STING (Statistical Information Grid) 是 基于 网 格 方法 的 一 个 典型 例子 。 CLIQUE 
(Clustering In Quest) 和 WaveCluster 这 两 种 算法 既是 基于 网 格 的 ， 又 是 基于 密度 的 。 


5. 基于 模型 的 方法 (Model-based Method) 

基于 模型 的 方法 为 每 个 簇 假定 了 一 个 模型 ， 寻 找 数据 对 给 定 模 型 的 最 佳 拟 合 。 一 个 
基于 模型 的 算法 可 能 通过 构建 反映 数据 点 空间 分 布 的 密度 函数 来 定位 聚 类 。 它 也 基于 标 
准 的 统计 数字 自动 决定 聚 类 的 数目 ， 考 虑 “噪声 ”数据 或 孤立 点 ， 从 而 产生 健壮 的 聚 类 
方法 。 典 型 的 基于 模型 的 方法 包括 : 


聚 类 分 析 


统计 方法 COBWEB: 是 一 个 常用 的 且 简 单 的 增 量 式 概念 聚 类 方法 。 它 的 输入 对 象 是 
采用 符号 量 〈 属 性 - 值 ) 对 来 加 以 描述 的 。 采 用 分 类 树 的 形式 来 创建 一 个 层次 聚 类 。 

CLASSIT 是 COBWEB 的 另 一 个 版 本 。 它 可 以 对 连续 取 值 属性 进行 增 量 式 聚 类 。 它 
为 每 个 节点 中 的 每 个 属性 保存 相应 的 连续 正 态 分 布 (均值 与 方差 ); 并 利用 一 个 改进 的 分 
类 能 力 描述 方法 ， 即 不 像 COBWEB 那样 计算 离散 属性 〈 取 值 ) 和 而 是 对 连续 属性 求 积 
分 。 但 是 CLASSIT 方法 也 存在 与 COBWEB 类 似 的 问题 。 因 此 它们 都 不 适合 对 大 数据 库 
进行 聚 类 处 理 。 

传统 的 聚 类 算法 已 经 比较 成 功 地 解决 了 低 维 数据 的 聚 类 问题 。 但 是 由 于 实际 应 用 中 
数据 的 复杂 性 ， 在 处 理 许多 问题 时 ， 现 有 的 算法 经 党 失效， 特别 是 对 于 高 维 数据 和 大 型 
数据 的 情况 。 因 为 传统 聚 类 方法 在 高 维 数据 集中 进行 聚 类 时 ， 主 要 遇 到 两 个 问题 。 首 先 ， 
高 维 数据 集中 存在 大 量 无 关 的 属性 使 得 在 所 有 维 中 存在 簇 的 可 能 性 几乎 为 零 。 另 外 ， 高 
维 空间 中 数据 较 低 维 空间 中 数据 分 布 要 稀疏 ， 其 中 数据 间距 离 几 乎 相等 是 普遍 现象 ， 而 
传统 聚 类 方法 是 基于 距离 进行 聚 类 的 ， 因 此 在 高 维 空间 中 无 法 基于 距离 来 构建 簇 。 

高 维 聚 类 分 析 已 成 为 聚 类 分 析 的 一 个 重要 研究 方向 。 同 时 高 维 数据 聚 类 也 是 聚 类 技 
术 的 难点 。 随 着 技术 的 进步 使 得 数据 收集 变 得 越 来 越 容 易 ， 导 致 数据 库 规 模 越 来 越 大 、 
复杂 性 越 来 越 高 ， 如 各 种 类 型 的 贸易 交易 数据 、Web 文档 、 基 因 表达 数据 等 ， 它 们 的 维 
度 (属性) 通常 可 以 达到 成 百 上 千 维 ， 甚 至 更 高 。 但 是 ， 受 “维度 效应 ”的 影响 ， 许 多 
在 低 维 数据 空间 表现 良好 的 聚 类 方法 运用 在 高 维 空间 上 往往 无 法 获得 好 的 聚 类 效果 。 高 
维 数据 聚 类 分 析 是 聚 类 分 析 中 一 个 非常 活跃 的 领域 , 同时 它 也 是 一 个 具有 挑战 性 的 工作 。 


2 ) K-Means 算法 


-Means 算法 ， 也 称 k- 平 均 算法 ， 是 一 种 常用 的 基于 划分 的 聚 类 方法 ， 用 来 根据 样 
本 属性 值 之 间 的 相似 度 来 对 样本 进行 分 组 。 其 基本 思路 是 ， 把 数据 集 划 分 为 个 禾 ， 每 
个 簇 内 部 的 样本 都 非常 相似 ， 但 不 同 徐 的 样本 则 非常 相 异 。K-Means 是 一 种 迭代 算法 ， 
初始 的 大 个 艇 被 随机 地 定义 之 后 ， 这 些 马 将 被 不 断 地 更 新 ， 并 在 更 新 中 被 优化 ， 当 无 法 
再 进一步 优化 (或 者 达到 一 定 的 迭代 次 数 ) 时 算法 才 停止 ， 然 后 生成 模型 。 

在 KK-Means 算法 中 , 每 个 艇 有 一 个 中 心 , 称 为 “质心 ”个 簇 就 相应 地 有 个 质心 。 
一 个 样本 究 竞 被 划分 到 哪个 徐 ， 就 看 它 和 哪个 质心 的 “ 相 异 度 ” 最 小 。 在 K-Means 算法 
中 ， 衡 量 相 异 度 的 指标 是 “距离 ”(distance)。 所 以 也 可 以 这 么 说 ， 一 个 样本 究竟 被 划分 
到 哪个 秘 ， 就 看 它 和 哪个 质心 的 “距离 ”最 小 。 这 里 的 距离 ， 则 是 由 样本 的 每 一 个 属性 
的 取 值 来 共同 参与 决定 的 。 


为 了 进行 聚 类 ， 需 要 不 断 地 计算 样本 之 间 的 相 异 度 ， 即 距离 。 两 个 样本 之 间 的 距离 
又 是 由 多 个 距离 分 量 〈《 有 多 少 个 属性 参与 聚 类 分 析 ， 就 有 多 少 个 距离 分 量 ) 来 计算 的 
每 个 距离 分 量 就 是 两 个 样本 同一 属性 的 取 值 差异 。 为 了 计算 这 些 距离 ， 要 首先 对 数据 集 
中 的 数据 进行 预 处 理 。 
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在 一 个 数据 集中 ， 往 往 既 有 连续 属性 ， 也 有 离散 属性 。 两 种 属性 的 预 处 理 方式 则 完 
全 不 同 。 

1， 连 续 属性 的 预 处 理 

在 一 个 数据 集中 ,往往 会 有 多 个 连续 属性 ， 例 如 “年 龄 ”"、“ 家 庭 拥 有 汽车 数量 ”等 。 
对 于 “年 龄 ”来 说 ， 最 大 值 可 以 达到 80 甚至 更 大 ， 但 对 于 “家 庭 拥 有 汽车 数量 ”而 言 ， 
通常 不 会 超过 3~4 辆 。 为 了 平抑 属性 间 的 这 种 差异 ， 把 连续 属性 的 值 都 统一 地 转换 为 一 


个 属于 区 间 [0,1] 的 值 ， 转 换 的 公式 是 ，xw = 下 一 ee ， 其 中 ，x,,。 和 x 分别 是 属性 


Tax 一 Xmin 
的 全 部 取 值 中 的 最 小 值 和 最 大 值 ，x 是 某 个 样本 的 属性 了 的 取 值 ，x 就 是 转换 后 的 属 
性 值 。 

例如 样本 4 和 样本 B 的 属性 蕊 的 转换 如 表 4-1 所 示 。 


表 4-1 连续 属性 值 的 转换 示例 


样本 属性 X 的 取 值 。 属性 X 的 最 小 值 属性 X 的 最 大 值 转换 后 的 取 值 
4 28 10 80 0.257 
B 54 10 80 0.629 


那么 这 两 个 样本 在 属性 了 上 的 差异 q 可 以 这 样 来 计算 : 
d=(x4—xs) =(0.257—0.629)? =0.138 
显然 ， 差异 q 的 最 大 值 为 1 (此 时 两 个 取 值 分 别 为 属性 值 中 的 最 小 值 和 最 大 值 )， 差 
异 q 的 最 小 值 为 0( 此 时 两 个 取 值 相等 )。 
2. 离散 属性 的 预 处 理 
离散 属性 的 取 值 往往 不 是 数值 ， 例 如 “收入 水 平 ” 的 取 值 包括 “高 ”“ 中 ”“ 低 ”。 
因此 ， 为 了 便于 计算 属性 值 的 差异 ， 必 须 先 将 离散 属性 连续 化 。 
一 种 常用 的 方法 是 对 离散 属性 的 全 部 取 值 进行 二 进 制 编码 ， 用 多 个 连续 属性 来 表示 
一 个 离散 属性 ， 例 如 对 “收入 水 平 ”的 转换 过 程 显示 在 表 4-2 中 。 
表 4-2 离散 属性 值 的 转换 示例 


样本 收入 水 平 Si S> Ss 
4 中 0 1 0 
B 高 it 0 0 
他 低 0 0 1 
这 样 ,“ 收 入 水 平 ” 可 以 由 3 个 连续 属性 $1/、5,、5; 来 表示 ， 这 3 个 属性 称 为 原 属性 
的 “派生 属性 ”。 


那么 样本 4 和 样本 B 在 属性 “收入 水 平 ” 上 的 差异 该 如 何 计算 呢 ?如 果 采 用 上 面 计 
算 连 续 属性 差异 的 方法 ， 则 : 


Q 一 (Su 一 Sis) 十 (S 4 — Ss 六 +(S34 


Si) =(0=Y +0-074+(0—07 =2 


计算 结果 大 于 1， 意 味 着 这 种 计算 方法 将 使 得 在 计算 样本 之 间 的 距离 时 ， 离 散 属性 


聚 类 分 析 


的 影响 (权重 ) 会 比 连 续 属性 更 大 。 为 了 平抑 这 种 差异 ， 需 要 引入 一 个 调节 因子 
7 二 V0.5 =0.707 。 这 样 ， 样 本 4 和 样本 B 在 属性 “收入 水 平 ” 上 的 差异 为 : 
d = (Su —1S,s) + (mS24 —1S2s) + (17534 —1S38) 
=(0—V0.5) +(V0.5 —0) +(0—0) =1 
显然 ， 当 样本 4 和 样本 B 的 离散 属性 值 相 等 时 ， 差 异 4 为 0， 否 则 为 1。 


K-Means 算法 是 一 个 迭代 计算 “质心 ”并 根据 样本 与 质心 的 距离 把 各 样本 指派 到 各 
个 禾 的 过 程 。 主 要 过 程 如 下 : 

第 1 步 : 确定 初始 质心 。 生 成 个 质心 ,kk 由 用 户 指定 。 

第 2 步 : 指派 样本 。 计 算 每 一 个 样本 到 各 质心 的 距离 ， 把 样本 指派 给 距离 最 小 的 徐 。 

第 3 步 : 更 新 质心 。 根 据 每 个 艇 当前 所 拥有 的 所 有 样本 ， 重 新 计算 每 个 簇 的 质心 。 

第 4 步 : 检查 是 否 满足 下 列 两 个 停止 准则 之 一 如果 满 足 ， 则 算法 停止 。 否 则 重复 


第 2 步 和 第 3 步 ): 
口 在 第 3 步 结束 时 ， 更 新 后 的 质心 和 更 新 前 的 质心 之 间 的 区 别 小 于 预定 义 的 差异 
容忍 度 . 


口 和 迭代 次 数 已 经 超过 了 预定 义 的 次 数 。 

一 个 筷 是 由 它 的 质心 来 代表 的 。 质 心 是 一 个 向 量 〈 由 属性 的 值 构成 )。 向 量 的 值 是 由 
指派 给 该 筷 的 那些 样本 的 属性 值 的 平均 值 来 确定 的 。 

下 面 对 算 法 流程 中 的 各 个 步骤 进行 曾 述 。 


1. 确定 初始 质心 


首先 由 用 户 指定 模型 中 簇 的 数量 k。 然 后 根据 如 下 算法 生成 个 质心 : 

Q@ 选取 第 一 个 样本 ， 作 为 第 一 个 质心 。 

@ 对 每 一 个 样本 ， 计 算 它 与 质心 的 欧 几 里 得 距离 或 者 距离 的 平方 。 

@ 选择 欧 几 里 得 距离 最 大 的 那个 样本 ， 作 为 又 一 个 质心 。 

@ 重复 @、@@， 直 到 上 个 质心 都 被 确定 下 来 。 

给 定 质 心 向 量 C(c1,c2,…,c@) 和 一 个 样本 向 量 X(xiyx2,…xg)， 其 中 0 是 数据 集中 属性 
的 数量 ，xg 是 样本 的 第 4 个 属性 的 值 ，g=12.…:C。 那 么 样本 与 质心 的 欧 几 里 得 距离 的 
计算 公式 如 下 : 


归 
d= | > Go -0) 
g=1 
最 初 的 大 个 质心 生成 后 ， 算 法 开始 进行 迭代 指派 过 程 。 


2. 指派 样本 


在 算法 的 每 一 次 迭代 中 ， 每 一 个 样本 被 指派 给 离 自 己 最 近 的 那个 质心 所 代表 的 簇 。 
距离 是 由 欧 几 里 得 距离 的 平方 来 表示 的 ， 所 以 ， 样 本 到 质心 7 的 距离 为 : 
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本 
WC P= cy) 
g=1 


其 中 ， 拟 是 样本 i 的 属性 值 组 成 的 向 量 ，G 是 簇 j 的 质心 向 量 ，Q 是 属性 的 数量 ，xg; 是 
第 i 个 样本 的 第 g 个 属性 的 值 ，cgj 是 簇 j 的 质心 的 第 g 个 属性 的 值 。 

对 每 一 个 样本 ， 计 算 它 和 每 一 个 质心 的 距离 。 哪 个 簇 的 质心 和 该 记录 最 近 ， 就 把 该 
记录 指派 给 那个 秘 。 在 这 个 过 程 中 ， 一 个 样本 可 能 会 被 从 一 个 徐 中 转移 到 男 一 个 簇 中 。 

在 所 有 的 记录 都 被 指派 后 ， 开 始 更 新 每 个 马 的 质心 。 

3 更 新 质心 

由 于 在 指派 样本 的 过 程 中 ， 一 个 簇 中 的 一 些 样本 可 能 被 转移 到 其 他 入 中 因为 这 些 
样本 距离 其 他 筷 的 质心 更 近 ),， 也 可 能 会 有 一 些 其 他 艇 中 的 样本 被 转移 到 这 个 读 中 ,因此 


需要 重新 计算 每 个 筷 的 质心 。 
设 指派 样本 之 后 ， 第 7 个 秘 中 的 样本 数量 为 mw ， 那 么 重新 计算 这 个 艇 的 质心 所 得 到 


的 向 量 为 : 


=m rg) 
其 中 向 量 的 第 g(g=1,2,…,Q) 个 分 量 x% 为 : 


a 
bp (7 
a i=1 


27 


yy 


其 中 ，x,(]) 是 簇 j 中 的 样本 i 的 第 g 个 属性 的 值 。 
4. 停止 准则 


(1) 最 大 迭 代 次 数 

“最 大 迭代 次 数 ” 控 制 着 算法 不 断 地 寻找 更 稳定 的 簇 。 算 法 将 不 断 地 重复 “指派 样 
本 -更 新 质心 ”的 循环 ， 直 到 达到 “最 大 迭代 次 数 ”。 当 这 个 极限 达到 之 后 ， 算 法 就 终止 
更 新 乌 ， 产 生 最 终 的 模型 。 

(2) 差异 容忍 度 

“差异 容忍 度 ” 提 供 另外 一 种 控制 算法 是 否 终止 的 方式 。 

在 每 一 次 迭代 结束 后 ， 计 算 每 个 侯 更 新 前 和 更 新 后 的 质心 间 的 距离 。 例 如 在 第 + 次 
迭代 结束 后 ， 第 7 个 筷 在 更 新 前 和 更 新 后 的 质心 间 的 距离 为 : 1 CO -Cid-DI， 其 中 
Ci(GD) 是 第 了 上 次 迭代 时 第 7 个 筷 的 质心 向 量 ，Cid-D 是 前 一 次 迁 代 时 第 7 个 簇 的 质心 向 
量 。 这 样 ，k 个 入 就 产生 了 个 结果 。 选 出 其 中 的 最 大 值 max | Cj() 一 C(t 一 DD) ， 如 果 


这 个 最 大 值 小 于 预先 定义 的 差异 容忍 度 ， 则 算法 终止 。 否 则 继续 迭代 。 


本 节 展示 了 一 个 在 Clementine 中 用 K-Means 算法 对 某 超市 中 的 15 种 液体 饮料 进行 聚 


类 分 析 的 案例 。 目 的 是 根据 饮料 中 的 5 种 微量 元 素 的 含量 (毫克 / 升 ) 来 对 这 15 种 饮料 
进行 分 组 。 数 据 集 存放 在 “饮料 .xls” 文 件 中 ， 包 含 15 个 样本 ， 


DD、E) 组 成 (如 表 4-3 所 示 )。 


表 4-3 训练 样本 集 
编号 A B C 
1 1234 40.86 448.7 
2 18.4 42.61 467.3 
3 32.3 12.86 325.61 
4 27.2 9.18 369.8 
5 8.9 57.67 556.55 
6 16.2 36.18 425.78 
7 25.3 10.86 348.7 
8 5 47.79 540.13 
9 172 38.2 424.4 
10 11.4 34.23 405.6 
11 25.5 1735 346 
12 i172 33.67 443.2 
13 10.2 40.01 516.7 
14 5.4 40.12 530.8 
15 20.8 33.02 445.8 


R 


5 个 属性 (4、B、C、 


匾 一 


kK-Means 


4.1 饮料 K-Means 聚 类 案例 的 数据 流 


1. 设置 数据 来 源 


首先 ， 在 “数据 源 ” 选 项 板 下 选择 Excel 节点 添加 到 数据 流 区 域 ， 并 编辑 其 属性 : 
在 “饮料 .xls” 对 话 框 的 “数据 ”标签 下 ， 设 置 “ 导 入 文件 ”为 “文件 路 径 \ 饮 料 .xls”; 
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另外 ， 数 据 集 的 第 一 列 是 “编号 "， 这 只 是 样本 的 编号 ， 显 然 该 属性 不 应 参与 聚 类 分 析 ， 
因此 ， 在 “饮料 .xls” 对 话 框 的 “过 滤 ” 标 签 下 ， 将 属性 “编号 ”过 滤 掉 〈 单 击 该 属性 右 
侧 的 箭头 )， 如 图 4.2 所 示 , 然后 单 击 “确定 ”按钮 。 如 果 想 浏览 数据 ， 可 以 在 “饮料 .xls” 
节点 后 添加 “ 表 ” 节 点 并 执行 。 


gE 

@ J 
Diclementinet 书 芒 子 第 四 章 kmeans 必 料 Js 

了 YJ 国 中 字段 6 个 已 输入，1 个 已 过 涛 ，0 个 已 重 命名 ，5 个 已 输出 

字段 过 治 于 及 

二 号 到 

IA w= A 

B 一 一 人 B 

Ic 一 C 

D —b D 

E = E 


回 查看 当前 字段 〇 查看 未 使 用 的 字段 设置 
数据 | 过 涛 | 类 型 | 注解 


EE 
图 4.2 ”过滤 “编号 ”字段 


在 数据 流 区 域 中 添加 “类 型 ”节点 ， 并 建立 从 “饮料 :xls” 节 点 到 “类 型 ”节点 的 连 
接 。 双 击 “ 类 型 ”节点 ， 打 开 “ 类 型 ”对 话 框 ， 单 击 “ 读 取 值 ”按钮 ， 如 图 4.3 所 示 ， 
然后 单 击 “ 确 定 ” 按 钮 。 


[5.0,32.3] 

9.18,57.67] 
[325.61,556.55] 

{0.0,0.018] 

人 纱 连 续 [0.63,2.22] 


回 查看 当前 字段 “C 〇 查看 未 使 用 的 字段 设置 
类 型 | 格式 | 注解 


4.3 ”设置 数据 类 型 


2. 设置 建 模 节点 


在 “ 建 模 ”标签 下 选择 KK-Means 节点 添加 到 数据 流 区 域 ， 并 建立 从 “类 型 ”节点 到 
K-Means 节点 的 连接 ， 双 击 K-Means 节点 ， 对 该 节点 进行 编辑 ， 如 图 4.4 所 示 。 

在 “模型 ”标签 下 ， 可 以 设置 下 列 参 数 及 选项 : 

模型 名 称 (Model Name): 指定 要 产生 的 模型 名 称 ， 有 两 个 选项 : 

口 自动 (Auto )。 选择 该 选项 后 ， 模 型 名 称 将 为 K-Means。 这 是 默认 的 设置 。 


回 重 口 目 定义 


再 


回 字符 串 〇 数值 


图 4.4 设置 模型 参数 


口 自 定义 (Custom )。 选 择 该 选项 则 可 以 为 节点 创建 的 模型 指定 用 户 定义 的 模型 
名 称 。 

使 用 分 区 数据 (Use Partitioned Data): 如 果 用 户 定义 了 分 割 数 据 集 ， 选 择 训练 数据 
集 作 为 建 模 数据 集 ， 并 利用 测试 数据 集 对 模型 评价 。 

聚 类 数 〈Specified Number of Clusters): 指定 生成 聚 类 的 类 数 。 默 认 值 为 5， 这 里 
设置 为 3。 

生成 距离 字段 (Generate Distance Field): 如 果 选 择 了 这 一 项 ， 生 成 模型 将 包括 一 
个 具有 每 个 记录 与 其 所 属 类 和 群 中 心 距 离 的 字段 。 

显示 聚 类 相似 度 〈Show Cluster Proximity): 选择 该 选项 以 在 生成 模型 的 输出 结果 
中 包含 每 个 簇 的 质心 与 其 他 质心 的 距离 。 

聚 类 标签 (Cluster Display): 指定 生成 聚 类 类 别 字段 的 格式 。 类别 可 以 用 String ( 字 
符 ) 表 示 , 使 用 指定 的 Label Prefix (标签 前 级 )( 如 “cluster1”“cluster2”), 或 者 用 Number 
(数字 ) 表示 。 这 里 采用 默认 设置 ， 即 聚 类 标签 为 “字符 串 ” 标签 前 缀 为 “ 聚 类 ”。 

切换 到 “专家 ”标签 下 (如 图 4.5 所 示 )， 设 置 -Means 节点 的 高 级 选项 。 


@ 回回 


口 简单 @ 代 忆 
停止 : O 〇 默认 值 回 自 定 义 
晤 大 法 代数 10 应 
更 改 容 妨 度 : 0.0 启 
合 编码 值 : 0.70711 | 


字段 | 模型 | 专家 | 注解 


[CJjL? 二 |][ 怠 |] [ 喇 ] 枉 ] 
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在 “专家 ”标签 下 ， 可 以 设置 下 列 参数 及 选项 : 

模式 (Mode): 有 两 个 选项 ,“ 简 单 ” 和 “专家 ”。 在 “简单 ”模式 下 ， 直 接 采 用 默 
认 设 置 。 如 果 需 要 改变 某 些 参数 设置 ， 则 选中 “专家 ” 单 选 按钮 。 

停止 (Stop On): 可 以 指定 训练 模型 的 停止 条 件 。 默 认 (Default) 停止 条 件 是 迭代 
20 次 或 者 差异 容忍 度 <0.000001， 其 中 任 一 项 达到 就 停止 。 选 择 自 定义 〈Custom) 可 以 
指定 自己 的 停止 条 件 : 
口 最 大 迭代 数 : 该 选项 允许 在 迭代 指定 次 数 后 终止 训练 ， 这 里 设置 为 10。 
口 差异 容忍 度 : 该 选项 允许 在 一 次 迭代 中 质心 之 间 的 最 大 差异 小 于 指定 水 平时 终 

止 训练 。 

集合 编码 值 (Encoding Value For Sets): 指定 0 一 1.0 之 间 的 一 个 值 用 于 把 离散 属 
性 重新 编码 成 一 组 连续 型 属性 。 默 认 值 是 0.5 的 平方 根 ( 大 约 为 0.707107), 值 越 接近 1.0， 
离散 型 属性 权重 越 比 连续 型 属性 大 。 该 参数 也 就 是 在 第 4.2.1 节 中 阐述 的 对 离散 属性 进行 
预 处 理 时 需要 设置 的 调节 因子 1。 

在 这 些 参数 设置 完毕 后 ， 单 击 “ 执 行 ”按钮 ， 即 可 在 管理 器 窗口 的 “模型 ”标签 下 
显示 生成 的 K-Means 模型 节点 。 


3. 查看 模型 的 输出 结果 
将 生成 的 K-Means 模型 节点 拖 入 到 数据 流 区 域 ,并 建立 从 “饮料 .xls ”节点 到 及-Means 
模型 节点 的 连接 ， 然 后 向 数据 流 区 域 中 添加 “ 表 ” 节 点 ， 并 建立 从 K-Means 模型 节点 到 


表 节 点 的 连接 ， 双 击 “ 表 ”节点 ， 弹 出 节点 的 对 话 框 ， 单 击 “ 执 行 ”按钮 ， 即 可 查看 模 
型 的 输出 结果 ， 如 图 4.6 所 示 。 
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到 40.860 448.700 ”0.012 1.010 永 类 -1 0.384 


18.400 42.610 467.300 ”0.008 1.640 京 类 -3 0.326 
32.300 12.860 325.610 ”0.004 2.220 到 类 -2 0.277 
27.200 9.180 369.800 0.005 1.720 永 类 -2 0.219 

8.900 57.670 556.550 0.018 1.010 束 类 -1 0.368 
16.200 36.180 425.780 0.003 1.594 聚 类 -3 0.144 
25.300 10.860 348.700 “0.002 2.010 永 类 -2 0.111 

5.000 47.790 540.130 0.017 0.770 束 类 -1 0.220 


17.200 38.200 424.400 “0.001 1.140 束 类 -3 0.250 
11.400 34.230 405.600 ”0.008 1.020 到 类 -3 0.403 
25.500 17.350 346.000 0.000 1.780 来 类 -2 0.219 
17.200 33.670 443.200 0.001 1.414 育 类 -3 0.188 
10.200 40.010 516.700 ”0.012 0.950 到 类 -1 0.200 

5.400 40.120 530.800 0.014 0.630 束 类 -1 0.224 
20.800 33.020 445.800 0.004 1.618 束 类 -3 0.213. 
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图 4.6 ”模型 的 输出 结果 
可 以 看 出 ， 在 原 有 数据 属性 的 基础 上 ， 输 出 结果 中 多 了 两 个 属性 : SKM-K-Means 
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和 S$KMD-K-Means。 
SKM-K-Means: 表示 样本 被 划分 到 的 那个 簇 。 
$SKMD-K-Means: 表示 样本 与 其 所 在 艇 的 质心 之 间 的 距离 。 
例如 第 一 个 样本 ， 被 划分 到 了 “ 聚 类 -1” 中 ， 它 与 “ 聚 类 -1” 的 质心 的 距离 是 0.384。 
结果 显示 ，15 个 样本 被 划分 为 3 个 簇 :“ 聚 类 -1” 包 含 样本 1、5、8、13、14;“ 育 
类 -2” 包 含 样本 3、4、7、11;“ 聚 类 -3” 包 含 样本 2、6、9、10、12、15。 


4. 浏览 生成 的 K-Means 模型 
右 击 管 理 器 窗口 “模型 ”标签 下 生成 的 K-Means 模型 节点 ， 在 快捷 菜单 中 选择 “ 浏 


览 ” 命 令 ， 打 开 K-Means 对 话 框 ， 在 “模型 ”标签 下 会 显示 划分 出 来 的 3 个 聚 类 ， 单 击 
“全 部 展开 ”按钮 ， 则 可 以 显示 每 个 簇 的 一 些 统计 信息 ， 如 图 4.7 所 示 。 
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图 4.7 聚 类 的 统计 信息 


以 “ 聚 类 -1” 为 例 来 说 明 这 些 统计 信息 。“ 聚 类 -1” 包 括 5 个 记录 (样本 ), 这 5 个 
记录 的 属性 A 的 均值 是 8.32， 标 准 差 是 3.07; 属性 B 的 均值 是 45.29， 标 准 差 是 7.644; 
以 此 类 推 。 在 “相似 度 ” 一 栏 中 ， 显 示 了 “ 聚 类 -1” 与 “ 聚 类 -3” 的 距离 是 0.842228， 
与 “ 聚 类 -2” 的 距离 是 1.542131， 之 所 以 会 计算 相似 度 ， 是 因为 在 图 4.4 中 设置 模型 参 
数 时 选中 了 “显示 聚 类 相似 度 ” 复 选 框 。 

单 击 “ 查 看 器 ”标签 ， 可 以 以 图 表 的 形式 来 显示 模型 的 统计 信息 以 及 各 个 属性 在 各 
簇 中 的 分 布 信息 ， 如 图 4.8 所 示 。 

默认 情况 下 ， 各 个 簇 显 示 在 横 轴 ， 各 属性 显示 在 纵 轴 。 

图 中 的 前 几 列 用 来 显示 各 个 簇 的 统计 信息 ， 以 图 例 的 形式 来 表示 各 属性 在 每 个 簇 中 
的 平均 值 。 各 个 簇 按照 包含 样本 数量 的 多 少 降序 排列 (例如 在 图 4.8 中 ， 聚 类 -3 包含 了 
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6 个 样本 ， 样 本 数量 最 多 ， 所 以 排列 在 最 前 面 )。 
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图 4.8 ”模型 的 “查看 器 ”标签 


“总 体 ” 这 一 列 其 实 就 是 将 前 面 几 列 各 个 簇 的 图 例 集中 在 一 起 显示 , 起 到 一 种 比较 和 
对 照 的 作用 。 注 意 ,“ 总 体 ” 这 一 列 并 不 是 默认 显示 的 。 如 果 需 要 显示 “总 体 ” 列 ， 需 要 
在 扩展 对 话 框 中 ( 单 击 对 话 框 右上 角 的 [ 济 按 钮 即 可 打开 扩展 对 话 框 ) 选 择 “显示 总 结果 ”。 

“重要 性 ”这 一 列 则 显示 了 每 个 属性 对 于 建立 模型 的 重要 程度 。 它 用 一 个 0 一 1 之 间 
的 数值 来 表示 ， 其 数值 等 于 1-p (p 是 用 1 检验 或 者 卡 方 检验 得 到 的 显著 度 水 平 。 如 果 是 
连续 属性 ， 用 1 检验 ， 如 果 是 离散 属性 ， 则 用 卡 方 检验 )。 

另外 ， 打 开 扩 展 窗口 ， 通 过 对 一 些 选项 的 选择 ， 还 可 以 实现 单独 显示 某 个 聚 类 、 用 
文字 形式 来 显示 统计 信息 等 功能 ， 如 图 4.9 所 示 。 

通过 图 4.9 所 示 的 统计 图 ， 通 常 可 以 分 析 两 类 问题 : 其 一 ， 分 析 某 个 属性 在 所 有 和 拨 
中 的 分 布 情况 ， 其 二 ， 分 析 某 个 簇 中 各 个 属性 的 分 布 情况 。 

最 后 ， 在 窗口 的 “汇总 ”标签 中 ， 会 显示 关于 本 次 训练 过 程 中 的 一 些 概要 信息 ， 包 
括 “ 分 析 ”“ 字 段 ”、“ 构 建设 置 "“ 训 练 概要 ”等 4 个 栏目 ， 如 图 4.10 所 示 。 

在 “分 析 ” 一 栏 中 ， 展 示 由 模型 建立 的 聚 类 方法 的 相关 信息 。 给 出 聚 类 数目 及 其 迭 
代 过 程 。 例 如 从 图 4.10“ 分 析 ” 一 栏 中 可 以 看 到 ， 聚 类 树 为 3， 算法 进行 了 3 次 迭代 。 
在 这 3 次 迭代 中 ，max1 CO 一 Cr 一 D1 的 值 逐渐 减 小 ， 第 3 次 过 代 时 为 0， 满 足 了 算 


法 停止 准则 ， 算 法 终止。 
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4.10 汇总 信息 


数据 挖掘 算法 与 Clementine 实践 


人 3) TwoStep 算法 


TwoStep〈 两 步 聚 类 ) 是 一 种 分 两 步 进 行 的 聚 类 方法 ， 用 于 处 理 非常 大 的 数据 集 ， 可 
以 处 理 连续 属性 和 离散 属性 。 它 只 需 遍 历数 据 集 一 次 。 整 个 算法 包括 以 下 两 个 步骤 : 

第 一 步 : 预 聚 类 。 遍历 一 次 数据 ， 在 这 个 过 程 中 把 原始 数据 压缩 成 易 处 理 的 子 类 集 。 
这 一 步骤 是 通过 BIRCH 算法 (Zhang, Ramakrishnon, Livny,1996) 构造 CF 树 来 实现 的 。 
算法 一 个 一 个 地 扫描 样本 ， 并 决定 是 否 将 当前 样本 指派 到 已 经 生成 的 某 个 聚 类 中 ， 或 是 
生成 一 个 新 的 聚 类 〈 根 据 距离 法 则 ) 来 存放 当前 样本 。 

第 二 步 : 聚 类 。 使 用 层次 聚 类 方法 ， 将 小 的 聚 类 逐渐 合并 成 越 来 越 大 的 聚 类 ， 这 一 
过 程 不 需要 再 次 遍历 数据 。 层 次 聚 类 的 好 处 是 不 要 求 提 前 选择 聚 类 数 。 许 多 层次 聚 类 从 
单个 记录 开始 聚 类 ， 逐 步 合并 成 更 大 的 类 群 。 

在 TwoStep 中 ， 算 法 可 以 自动 选择 聚 类 的 个 数 。 


一 个 聚 类 是 由 一 些 相近 的 数据 样本 构成 的 ， 为 了 简化 问题 的 描述 和 数据 处 理 过 程 ， 
可 以 用 聚 类 的 特征 Cluster Feature，CF) 来 代表 这 个 聚 类 〈 而 无 须 涉及 该 聚 类 中 的 所 有 
样本 本 身 )。 

给 定 一 个 聚 类 { 玉 !} ， 包 括 和 个 d 维 ( 即 q 个 属性 ) 的 数据 样本 ， 其 中 二 1,2,…,N。 
用 一 个 三 元 组 来 表示 它 的 聚 类 特征 , 并 以 CF =(N.IS.SS) 这 样 的 表达 式 来 表示 , 称 为 CF 


条 目 (CF entry), 这 里 入 是 聚 类 中 的 样本 个 数 ，LS 是 个 样本 的 线性 和 : IS 二 豆 ， 
i=1 


N 2 

SS 是 个 样本 的 平方 和 : SS 二 了》 。 

设 CE = (Ni,LSi,SS,) 和 CE, ==(N,,LS;,SS,) 是 两 个 子 聚 类 的 CF 条 目 ， 那 么 把 这 两 
个 子 聚 类 合并 后 的 聚 类 的 CF 条 目 为 : 

CE 十 CE =(N, + N,,LS: +ELS:.SS, +SS,) 

CF 条 目 是 简洁 的 (不 必 存 储 所 有 的 数据 点 )， 但 同时 又 是 精确 的 (利用 CF 条 目 足 
以 计算 各 种 距离 以 进行 聚 类 分 析 )。 

2. CF 树 

CF 树 是 一 棵 形 如 图 4.11 所 示 的 树 。 它 有 两 个 参数 ， 分 支 因子 〈 非 叶子 节点 的 分 支 
因子 是 ， 叶 子 节点 的 分 支 因子 是 L) 和 效 值 7T。 每 个 节点 由 一 些 CF 条 目 构成 。 


每 个 非 叶子 节点 最 多 包含 了 B 个 条 目 ， 每 个 条 目的 形式 是 [CFachild]， 关 1.2,….B， 
child; 是 一 个 指针 , 指向 第 i 个 孩子 节点 ,CFi 是 这 个 孩子 节点 代表 的 那个 子 聚 类 的 CF 条 


目 。 所 以 一 个 非 叶子 节点 代表 了 一 个 子 聚 类 , 这 个 子 聚 类 又 分 为 多 个 子 聚 类 (孩子 节点 )， 
这 些 关系 都 是 用 CF 条 目 来 表示 的 。 


Root node 
中 2 B 
加 
Non-leaf node 
2 
‘DD | CD | CD 
z T \ 
Leaf node Leaf node Leaf node 
CCF ) CCE ) Cer ) 
CB leelC Ch ) hs. (CR ) 
(CE ) (CCE ) (CCE. ) 


图 4.11 CF 树 实例 


一 个 叶子 节点 最 多 包含 工 个 条 目 ， 每 个 条 目 代表 一 个 子 聚 类 。 一 个 叶子 节点 同时 也 
代表 着 一 个 聚 类 ， 这 个 聚 类 又 是 由 多 个 子 聚 类 组 成 ， 每 个 子 聚 类 用 各 自 的 条 目 来 表示 。 
但 是 ， 一 个 叶子 节点 的 所 有 条 目 都 必须 满足 一 个 阅 值 要 求 ， 这 就 和 闽 值 了 有 关 : 叶子 节 
点 条 目的 直径 〈 或 者 有 时 采用 半径 ) 必须 小 于 T。 给 定 由 个 4 维 的 数据 样本 组 成 的 数 
据 集 { 玉 i} ， 其 中 二 1,2,…,N， 质 心 为 及。， 半 径 为 R， 直 径 为 D。 这 些 参 数 的 定义 如 下 : 


簇 内 “紧密 度 ” 的 度量 方法 。 

显然 ， 树 的 规模 大 小 是 与 阔 值 了 相关 的 。 了 了 越 大 ， 一 个 叶子 节点 条 目 就 可 以 包含 更 
多 的 样本 点 ， 那 么 树 的 总 的 规模 就 越 小 。 

3. 生成 CF 树 


CF 树 是 在 遍历 数据 集 的 过 程 中 不 断 添加 、 更 新 条 目 及 分 裂 节点 来 形成 的 。 根 据 第 一 
个 样本 即 可 建立 根 节点 及 相应 的 条 目 ， 之 后 逐个 地 将 后 续 的 样本 根据 距离 最 小 的 原则 指 
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派 到 CF 树 中 。 

对 于 一 个 样本 Ent， 首 先 从 根 节点 开始 ， 沿 着 CF 树 而 下 ， 选 择 和 这 个 样本 距离 最 小 
的 叶子 节点 ; 然后 在 这 个 叶子 节点 里 寻找 最 近 的 条 目 (一 个 条 目 代 表 一 个 子 聚 类 ), 例如 
Li， 测 试 一 下 五 在 吸收 Ent 之 后 是 否 违背 阐 值 条 件 7。 如 果 没 有 违背 阔 值 条 件 ， 就 更 新 
厂 的 条 目 ， 以 反映 出 这 一 变化 〈 增 加 了 一 个 样本 )。 如 果 违 背 了 阔 值 条 件 ， 就 给 这 个 叶子 
节点 增加 一 个 新 的 条 目 ， 来 代表 Ent。 但 如 果 该 叶子 节点 已 经 没有 空间 来 存放 一 个 新 的 
条 目 〈 一 个 叶子 节点 最 多 只 能 有 工 个 条 目 )， 必 须 分 裂 这 个 叶子 节点 。 分 裂 的 方法 是 : 选 
择 两 个 距离 最 远 的 条 目 作 为 种 子 〈 两 个 叶子 节点 )， 然 后 根据 距离 最 小 原则 ， 把 剩 下 的 条 
目 重新 分 配 到 这 两 个 叶子 节点 中 。 

在 把 Ent 添加 到 叶子 节点 后 ， 要 更 新 从 根 节 点 到 这 个 叶子 节点 的 路 径 上 的 所 有 非 叶 
子 节点 的 条 目 信息 。 如 果 叶 子 节点 没有 分 裂 ， 则 相对 简单 ， 更 新 相关 的 CF 条 目 即 可 。 
如 果 叶 子 节点 分 裂 了 ， 则 还 要 给 这 个 叶子 节点 的 父 节点 增加 一 个 条 目 ， 来 代表 这 个 新 的 
叶子 节点 。 如 果 父 节点 还 有 空间 来 存放 这 个 条 目 〈 父 节点 最 多 能 存放 B 个 条 目 )， 那 么 


给 这 个 父 节 点 增加 条 目 即 可 。 如 果 没 有 空间 ， 还 需要 分 裂 这 个 父 节点 ， 甚 至 一 直 分 裂 到 


另外 ， 树 的 规模 是 受到 限制 的 ， 由 分 支 因 子 (38 和 工 ) 和 阔 值 了 来 决定 。 如 果树 上 
已 经 没有 了 空间 来 存放 新 的 样本 时 ， 可 以 通过 增 大 了 的 值 并 在 已 有 的 CF 树 基础 上 重建 
CF 树 。 重 建 后 的 CF 树 规模 就 小 一 些 ， 这 样 就 有 了 多 余 的 空间 来 存放 新 的 样本 。 

以 上 过 程 不 断 重复 ， 直 到 完成 一 次 数据 遍历 。 


在 得 到 一 棵 CF 树 之 后 ， 每 个 叶子 节点 的 每 个 条 目 都 代表 了 一 个 聚 类 ， 下 面 将 这 些 
聚 类 根据 距离 最 小 的 原则 进行 合并 ， 得 到 数量 适当 的 聚 类 。 这 里 TwoStep 利用 了 凝聚 的 
层次 聚 类 方法 。 

1. 凝聚 的 层次 聚 类 


层次 的 聚 类 方法 根据 数据 集 组 成 一 棵 聚 类 的 树 。 根 据 层 次 分 解 是 自 底 向 上 还 是 自 顶 
向 下 形成 ， 层 次 的 聚 类 方法 可 以 进一步 分 为 凝聚 的 〈agglomerative) 和 分 裂 的 〈divisive) 
层次 聚 类 。 一 个 纯粹 的 层次 聚 类 方法 的 聚 类 质量 受 限 于 如 下 特点 : 一 旦 一 个 合并 或 分 裂 
被 执行 ， 就 不 能 修正 。 

凝聚 的 层次 聚 类 : 这 种 自 底 向 上 的 策略 首先 将 每 个 样本 作为 一 个 徐 ， 然 后 合并 这 些 
原子 筷 为 越 来 越 大 的 徐 ， 直 到 所 有 的 样本 都 在 一 个 筷 中 ， 或 者 某 个 终结 条 件 被 满足 。 绝 
大 多 数 层次 聚 类 方法 属于 这 一 类 ， 它 们 只 是 在 徐 间 相似 度 的 定义 上 有 所 不 同 。 它 的 基本 
方法 是 : 给 定 要 聚 类 的 n 个 簇 , 计算 它们 的 nXn 的 距离 矩阵 ， 找 到 最 接近 的 两 个 类 并 合 
并 成 一 类 ， 于 是 总 的 类 数 少 了 一 个 ， 然 后 重新 计算 新 的 类 与 所 有 旧 类 之 间 的 距离 ， 再 选 
择 最 接近 的 两 个 类 合并 ， 以 此 类 推 ， 直 到 最 后 合并 成 一 个 类 (或 者 满足 某 个 停止 条 件 ) 
为 止 。 

分 裂 的 层次 聚 类 : 这 种 自 顶 向 下 的 策略 与 凝聚 的 层次 聚 类 相反 ， 它 首先 将 所 有 样本 
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置 于 一 个 筷 中 ， 然 后 逐渐 细 分 为 越 来 越 小 的 秘 ， 直 到 每 个 样本 自 成 一 马 ， 或 者 达到 了 某 
个 终结 条 件 ， 例 如 达到 了 某 个 希望 的 簇 数 目 ， 或 者 两 个 最 近 的 簇 之 间 的 距离 超过 了 某 个 
闪 值 。 

TwoStep 以 每 个 叶子 节点 的 每 个 条 目 为 原子 艇 利用 凝聚 的 层次 聚 类 方法 ， 对 这 些 
和 饼 不 断 进行 合并 。 


2. 距离 的 度量 


有 许多 种 方法 来 度量 两 个 聚 类 之 间 的 距离 。TwoStep 聚 类 方法 用 对 数 似 然 距离 度量 
方法 ， 来 处 理 连续 属性 和 离散 属性 。 它 是 一 个 基于 概率 的 距离 。 两 个 聚 类 之 间 的 距离 大 
小 ， 要 看 它们 合并 之 后 对 数 似 然 值 下 降 了 多 少 。 在 计算 对 数 似 然 值 时 ， 假 设 连 续 属 性 的 
取 值 为 正 态 分 布 ， 离 散 属性 的 取 值 为 多 项 分 布 。 同 时 ， 假 设 各 属性 之 间 不 相关 ， 样 本 之 
间 也 不 相关 。 聚 类 i 和 聚 类 7 之 间 的 距离 为 

d(i,))=& 十 与 —écij> 


其 中 ， 
ly Pe x a Ni 
=—N,|2 =log(6F +64)+ Er|, Ex=—> ,log—~ 
Et2 WA Le ~ 思 
在 这 些 表 达 式 中 : 
x 是 输入 属性 中 连续 属性 的 个 数 ; 


x” 是 输入 属性 中 离散 属性 的 个 数 ， 

去 是 第 丰 个 离散 属性 的 不 同 取 值 的 个 数 ， 

入 ,是 聚 类 中 的 样本 个 数 ; 

Nu 是 聚 类 v 中 第 大 个 离散 属性 取 值 为 7 的 样本 的 数量 ， 

名 是 第 个 连续 属性 的 全 部 样本 值 的 估计 方差 ; 

5% 是 在 聚 类 v 中 第 个 连续 属性 的 全 部 样本 值 的 估计 方差 ; 

<i,J> 代表 由 聚 类 i 和 聚 类 j 组 合 而 成 的 聚 类 。 

如 果 在 计算 上 部 时 忽略 6# ， 那 么 聚 类 和 聚 类 7 之 间 的 距离 就 是 两 个 聚 类 合并 前 后 的 
对 数 似 然 值 的 差 。 避 在 式 中 的 作用 是 避免 遇 到 6 = 0 的 情况 〈 当 聚 类 v 中 只 有 一 个 样 
本 时 ，6% =0， 使 得 自然 对 数 无 意义 )。 


3. 确定 聚 类 数 


在 KK-Means 算法 中 ， 最 终 的 聚 类 树 是 由 用 户 事先 指定 的 。 但 在 TwoStep 算法 里 ， 由 
算法 来 自动 确定 究竟 将 数据 集中 的 样本 聚 为 多 少 类 。 
由 于 采用 凝聚 的 层次 聚 类 方法 ， 给 定 要 聚 类 的 n 个 禾 ， 每 合并 两 个 徐 ， 上 聚 类 的 数量 
就 少 1， 因 此 在 聚 类 的 过 程 中 就 形成 了 一 个 聚 类 数量 序列 : n,(n-1)…,3,2,1， 代 表 了 nn 种 
聚 类 方案 。 

为 了 自动 地 确定 聚 类 的 数量 ，TwoStep 算法 采用 了 一 个 “两 阶段 ”方法 。 

(1) 第 一 阶段 : 计算 聚 类 数 的 初步 估计 值 

对 每 一 种 聚 类 方案 , 计算 它 的 贝 叶 斯 信息 判别 式 (Bayes Information Criterion, BIC ) 。 


数据 挖掘 算法 与 Clementine 实践 
例如 ， 有 .7 个 聚 类 的 划分 方案 的 BIC 为 : 
BicOD)= -2y 5 十 mjlog(N)， 其 中 ，mj = J{2K“ FE 一 D} ， 其 他 参数 定义 
k=1 


fj=1 
如 前 。 
令 dBIC(J)= BIC( 四 一 BIC(J 十 1) ， 表 示 J 个 育 类 的 方案 和 J+1) 个 聚 类 的 方案 之 


间 的 差别 。 那么， 计算 及 (四 一 和 eC， 表示 dBIC(7) 相对 于 dBIC(D 的 改变 程度 。 如 


果 4dBIC() <0， 那 么 聚 类 树 就 设置 为 1 (第 二 阶段 省 略 )。 否 则 ， 聚 类 数 的 初步 估计 值 大 
就 是 使 得 尺 (C7) < 0.04 成 立 的 最 小 的 下 
(2) 第 二 阶段 ， 确定 聚 类 数 
根据 第 一 阶段 确定 的 大 值 ， 计算 及 (及 一 过。 其 中 Ck 表示 村 类 数 为 上 的 划 
min k+l 


分 方案 ，qdia (Ci) 表示 该 方案 中 距离 最 小 的 两 个 簇 之 间 的 距离 。 Ci 表示 聚 类 数 为 上 的 
划分 方案 ，qduia (Cr) 表示 该 方案 中 距离 最 小 的 两 个 簇 之 间 的 距离 。 

同 理 ， 可 计算 出 Rk-1), RAk-2),…, RA2)， 得 到 一 个 Rs 比值 序列 。 从 中 选 出 两 个 最 
大 的 比值 丸 Q@) 和 玉 (7)， 玉 OO> 玉 (7)。 如 果 玉 GO 比 玉 (7) 的 1.15 倍 还 要 大 ， 那 么 最 终 
的 聚 类 数 就 等 于 i， 否则 选择 i 和 j 中 的 大 者 ( 即 选择 聚 类 数 多 者 作为 最 终 的 聚 类 数 。 


本 节 在 Clementine 中 用 TwoStep 算法 对 第 4.2.3 节 中 的 液体 饮料 聚 类 分 析 实 例 进行 
数据 挖掘 ， 可 以 对 比 两 种 聚 类 方法 产生 的 不 同 结 果 。 样 本 数据 集 在 表 4-3 中 。 
用 TwoStep 算法 对 液体 饮料 进行 聚 类 分 析 的 数据 流 如 图 4.12 所 示 。 


两 步 表 
图 4.12 ”TwoStep 聚 类 分 析 数 据 流 


首先 在 数据 流 区 域 添加 Excel 数据 源 节点 并 导入 “饮料 .xls” 文 件 ， 在 该 节点 将 “ 编 
号 ”属性 过 滤 。 然 后 添加 “类 型 ”节点 ， 并 读 取 值 。 

在 数据 流 区 域 添加 “两 步 ” 节 点 ， 并 建立 从 “类 型 ”节点 到 “两 步 ”节点 的 连接 ， 
然后 编辑 “两 步 ” 节 点 ， 如 图 4.13 所 示 。 
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回回 
名 称 : 加 自动 〇 自 定 义 
| 使 用 分 区 数据 
| 标准 化 数值 字段 站 排除 高 群 值 
: 回 字符 串 〇 数值 
葵 前 时: 到 类 
自动 计算 来 类 数 
最 大 值 : 15 同 最 小 值 : 2? 同 
〇 指定 来 类 数 
数值 四 S| 
字段 | 模型 | 注解 


EE 
图 4.13 编辑 “两 步 ” 节 点 


图 4.13 中 的 各 选项 说 明 如 下 : 

模型 名 称 (Model Name): 指定 要 产生 的 模型 名 称 。 

口 自动 (Auto): 选择 该 选项 后 ， 模 型 名 称 将 为 TwoStep。 这 是 默认 的 设置 。 

口 自 定义 ( Custom ): 选择 该 选项 可 以 为 节点 创建 的 模型 指定 用 户 定义 的 模型 名 称 。 

使 用 分 区 数据 (Use Partitioned Data): 如 果 用 户 定义 了 分 割 数据 集 ， 选 择 训练 数据 
集 作为 建 模 数 据 集 ， 并 利用 测试 数据 集 对 模型 评价 。 

标准 化 数值 字段 (Standardize Numeric Fields): 默认 设置 下 ， 两 步 聚 类 会 统一 把 
所 有 数值 型 输入 字段 标准 化 为 均值 为 0， 方差 为 1。 如果 要 保留 数据 的 原始 度量 ， 取 消 选 
择 该 项 。 

排除 离 群 值 (Exclude Outliers): 如 果 选 择 了 该 项 ， 输 入 字段 具有 异常 值 的 记录 将 
从 分 析 中 自动 排除 。 这 样 能 够 避免 此 类 个 案 牌 曲 结果 。 

聚 类 标签 〈Cluster Label): 指定 生成 模型 聚 类 类 别 字段 格式 。 类 别 可 以 用 字符 串 
CString) 表示 ， 使 用 指定 的 标签 前 级 (Label prefix) (如 “cluster 1”、“cluster 2”)， 或 者 
用 数值 (Number) 表示 。 

自动 计算 聚 类 数 (Automatically Calculate Number of Clusters): 两 步 聚 类 能 够 迅速 
分 析 大 量 聚 类 方案 ， 并 为 训练 集 选 出 最 优 类 别 数 。 通 过 设置 最 大 值 (Maximum) 和 最 小 
值 (Minimum) 聚 类 数 指定 聚 类 数 范 围 。 两 步 聚 类 使 用 两 阶段 过 程 来 决定 最 优 聚 类 数 。 
在 第 一 阶段 ， 根 据 贝 叶 斯 信息 判别 式 〈BIC) 的 变化 添加 的 类 别 数 来 选择 模型 的 类 别 上 
界 。 在 第 二 阶段 ， 找 出 所 有 类 别 数 小 于 最 小 -BIC 方案 的 模型 的 聚 类 间 最 小 距离 变化 。 距 
离 变 化 最 大 处 用 于 区 分 最 终 的 聚 类 模型 。 

指定 聚 类 数 (Specify Number of Clusters): 如 果 知 道 模型 中 所 包含 的 类 别 数 ， 选 择 
该 选项 并 输入 类 别 数 。 

按照 图 中 设置 完毕 后 ， 单 击 “ 执 行 ” 按 钮 ， 即 可 在 管理 器 窗口 得 到 生成 的 两 步 模型 。 
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将 生成 的 两 步 模型 拖 入 到 数据 流 区 域 ， 并 建立 从 “类 型 ”到 该 节点 的 连接 ， 然 后 在 
模型 节点 后 添加 “ 表 ” 节 点 ， 执 行 “ 表 ”节点 ， 即 可 看 到 聚 类 的 结果 ， 如 图 4.14 所 示 。 


6 4 吕 
国文 人 号 纺 卫生 成 ”| 图 晤 | 久 | 抽 | 
[而 疯 D | E |sT 两 步 | 
外 40.860 448.700 0.012 1.010 束 类 -2 
2 18.400 42.610 467.300 0.008 1.640 育 类 -1 
3 32.300 12.860 325.610 ”0.004 2.220 率 类 -1 
4 27.200 9.180 369.800 0.005 1.720 率 类 -1 
5 8.900 57.670 556.550 0.018 1.010 束 类 -2 
6 16.200 36.180 425.780 0.003 1.594 聚 类 -1 
和 25.300 10.860 348.700 0.002 2.010 京 类 -1 
8 5.000 47.790 540.130 0.017 0.770 束 类 -2 
9 17.200 38.200 424.400 0.001 1.140 束 类 -1 
10 11.400 34.230 405.600 0.008 1.020 束 类 -2 
11 25.500 17.350 346.000 0.000 1.780 束 类 -1 
12 17.200 33.670 443.200 0.001 1.414 聚 类 -1 
13 10.200 40.010 516.700 0.012 0.950 率 类 -2 
14 5.400 40.120 530.800 0.014 0.630 育 类 -2 
15 20.800 33.020 445.800 0.004 1.618 育 类 -1 
表 | 注解 


图 4.14 ”TwoStep 聚 类 结果 


由 结果 中 的 “S$T- 两 步 ” 列 可 知 ，TwoStep 算法 将 15 种 饮料 自动 划分 为 两 类 : 聚 类 -1 


( 含 9 个 样本 ) 和 聚 类 -2〈 含 6 个 样本 )。 


右 击 管理 器 窗口 “模型 ”标签 下 生成 的 两 步 模 型 节点 ， 在 快捷 菜单 中 选择 “浏览 ” 
命令 ， 打开“ 两 步 ” 对 话 框 ， 可 分 别 在 “模型 “查看 器 ”和 “汇总 ”标签 下 浏览 生成 
模型 的 各 项 统计 信息 ， 浏 览 模型 的 具体 方法 见 第 4.2.3 节 中 的 相关 阐述 。 


第 5 章 关联 规则 


人 关联 规则 概述 


数据 关联 是 数据 库 中 存在 的 一 类 重要 的 可 被 发 现 的 知识 。 若 两 个 或 多 个 变量 的 取 值 
之 间 存 在 某 种 规律 性 ， 就 称 为 关联 。 这 种 关联 体现 了 事物 及 事物 之 间 的 规律 ， 掌 握 这 些 
规律 ， 可 以 对 人 们 的 行为 进行 有 效 地 指导 。 因 此 ， 关 联 规 则 挖掘 成 为 了 数据 挖掘 中 的 一 
项 重要 内 容 。 

关联 规则 挖掘 的 一 个 典型 例子 是 购物 篮 分 析 。 市 场 分 析 员 要 从 大 量 的 数据 中 发 现 顾 
客 放 入 其 购物 篮 中 的 不 同 商品 之 闻 的 关系 。 如 果 顾 客 买 牛奶 ， 他 也 购买 面包 的 可 能 性 有 
多 大 ? 什么 商品 组 或 集合 顾客 多 半 会 在 一 次 购物 时 同时 购买 ? 例如 ， 买 牛奶 的 顾客 有 
80% 也 同时 买 面包 ， 或 买 铁 锤 的 顾客 中 有 70% 的 人 同时 也 买 铁 钉 ， 这 就 是 从 购物 篮 数据 
中 提取 的 关联 规则 。 分 析 结 果 可 以 帮助 经 理 设计 不 同 的 商店 布局 。 一 种 策略 是 : 经 常 一 
块 购 买 的 商品 可 以 放 近 一 些 ， 以 便 进一步 刺激 这 些 商 品 一 起 销售 ， 例 如 ， 如 果 顾 客 购买 
计算 机 又 倾向 于 同时 购买 财务 软件 ， 那 么 将 硬件 摆 放 离 软件 陈列 近 一 点 ， 可 能 有 助 于 增 
加 两 者 的 销售 。 另 一 种 策略 是 ， 将 硬件 和 软件 放 在 商店 的 两 端 ， 可 能 诱发 购买 这 些 商 品 
的 顾客 一 路 挑选 其 他 商品 。 

“啤酒 与 尿布 ”的 故事 , 就 是 一 个 经 典 的 关联 规则 挖掘 案例 。 沃尔玛 超市 的 数据 仓库 
里 集中 了 其 各 门店 的 详细 原始 交易 数据 。 在 这 些 原始 交易 数据 的 基础 上 ， 技 术 人 员 利 用 
数据 挖掘 方法 对 这 些 数据 进行 分 析 和 挖掘 。 一 个 意外 的 发 现 是 : 跟 尿 布 一 起 购买 最 多 的 
商品 竞 是 啤酒 ! 经 过 大 量 实际 调查 和 分 析 ， 揭 示 了 一 个 隐藏 在 “啤酒 与 尿布 ”背后 的 美 
国人 的 一 种 行为 模式 : 在 美国 ， 一 些 年 轻 的 父亲 下 班 后 经 常 要 到 超市 去 买 婴 儿 尿 布 ， 而 
他 们 中 有 30% 一 40% 的 人 同时 也 为 自己 买 一 些 啤酒 。 于 是 ,啤酒 和 尿布 被 摆 在 一 起 出 售 。 

关联 可 分 为 简单 关联 、 时 序 关联 、 因 果 关 联 。 关 联 分 析 的 目的 是 找 出 数据 库 中 隐藏 
的 关联 ， 并 以 规则 的 形式 表达 出 来 ， 这 就 是 关联 规则 。 

有 时 并 不 知道 数据 库 中 数据 的 关联 函数 ， 即 使 知道 也 是 不 确定 的 ， 因 此 关联 分 析 生 
成 的 规则 带 有 置信 度 〈 可 信 度 )。 关 联 规则 挖掘 发 现 大 量 数据 中 项 集 之 间 有 趣 的 关联 或 相 
关联 系 。 

Agrawal 在 1993 年 首先 提出 了 挖掘 顾客 交易 数据 库 中 项 集 间 的 关联 规则 问题 ， 以 后 
诸多 的 研究 人 员 对 关联 规则 的 挖掘 问题 进行 了 大 量 的 研究 。 他 们 的 工作 包括 对 原 有 的 算 
法 进行 优化 ， 如 引入 随机 采样 、 并 行 的 思想 等 ， 以 提高 算法 挖掘 规则 的 效率 ， 对 关联 规 
则 的 应 用 进行 推广 。 关 联 规则 挖掘 成 为 数据 挖掘 中 一 个 重要 的 研究 方向 。 
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假如 一 个 超市 的 销售 记录 (如 表 5-1 所 示 ) 由 许多 样本 组 成 ， 每 个 样本 由 若干 个 属 
性 来 确定 。 


表 5-1 销售 记录 数据 集 


编号 牛奶 果冻 啤酒 面包 花生 次 
TL 1 1 0 0 1 
得 0 1 0 1 0 
本 0 1 0 0 
到 1 1 0 1 0 
惑 1 0 1 0 0 
Te 0 1 1 0 0 
二 1 0 1 0 0 
gi 1 1 1 0 1 
En 1 1 1 0 0 


表 中 共有 9 个 样本 ， 每 个 样本 记录 了 一 次 购物 的 商品 (属性 值 取 “1” 表 示 已 购买 ， 
“0” 表 示 未 购买 )， 这 里 把 一 个 样本 称 为 一 个 “事务 ”(Transaction)。 每 个 事务 由 多 个 属 
性 来 确定 ， 这 里 的 属性 称 为 “项 ”(Item)， 多 个 项 组 成 的 集合 称 为 “项 集 ”(Itemset) 。 
根据 项 集中 包含 的 项 的 数量 , 项 集 可 以 是 1- 项 集 , 2- 项 集 , 或 者 项 集 。 例如 {牛奶 }、{ 啤 
酒 } 都 是 1- 项 集 ，{ 和 牛奶 ， 果 冻 } 是 2- 项 集 {啤酒 ， 面 包 ， 牛 奶 } 是 3- 项 集 。 可 以 看 出 ， 
每 个 事务 其 实 就 是 一 个 项 集 ， 例 如 事务 Ti 就 是 项 集 {牛奶 ， 果 冻 ， 花 生 敬 }。 

给 定 一 个 含有 个 事务 的 数据 库 D={h, 6,…,}， 有 m 个 属性 ， 这 m 个 属性 组 成 的 
项 集 为 三 {i1,i…,im}。 那 么 其 中 的 每 个 事务 1 都 是 一 个 项 集 ， 且 + CI。 设 4 是 一 个 项 集 ， 
当 4Ct 时 称 “ 事 务 1 包 含 4”。 

关联 规则 是 形 如 了 著 寺 了 的 蕴含 式 ,其 中 车 和 了 是 项 集 , 且 XCI,YCI, XNY=@g。 
卫 称 为 规则 前 项 (或 者 前 件 ，antecedent)， 了 称 为 规则 后 项 (或 者 后 件 ，consequent)。 

关联 规则 对 过 了 的 支持 度 s 是 数据 库 中 包含 了 UY 的 事务 占 全 部 事务 的 百分比 ， 它 
是 概率 P(XUY)， 记 做 support( 寺 了 =P(XUY)。 

关联 规则 耻 过 了 的 置信 和 度 c 是 包含 了 UY 的 事务 数 与 包含 也 的 事务 数 的 比值 ， 它 是 
条 件 概率 P(Y|XY) ， 记 做 confidence(X 志 了 )=P(Y|X)。 

在 进行 关联 规则 挖掘 之 前 ， 由 用 户 预 先 定义 最 小 支持 度 阅 值 (min_sup) 和 最 小 置信 
度 阔 值 (min conf)。 我 们 一 般 并 不 是 关心 所 有 的 规则 ， 而 只 对 那些 重要 的 规则 感 兴趣 ， 
它们 都 是 支持 度 大 于 等 于 min_sup、 置 信和 度 大 于 等 于 min_conf 的 规则 , 这 些 规 则 称 为 “ 强 
规则 ”。 


验 


果 某 个 项 集 的 支持 度 大 于 等 于 设 定 的 最 小 支持 度 阔 值 min_sup, 称 这 个 项 集 为 “ 频 
繁 项 集 ”( 也 称 为 “大 项 集 ” LargeItemsets)， 所 有 的 “频繁 kk 项 集 ” 组 成 的 集合 通常 记 
做 Lk。 
因此 ， 关 联 规则 挖掘 过 程 主要 包含 两 个 阶段 : 第 一 阶段 先 从 数据 集中 找 出 所 有 的 频 


关联 规则 


繁 项 集 ， 它 们 的 支持 度 均 大 于 等 于 最 小 支持 度 阔 值 min_ sup， 第 二 阶段 由 这 些 频繁 项 集 
产生 关联 规则 ， 计 算 它们 的 置信 度 ， 然 后 保留 那些 置信 度 大 于 等 于 最 小 置信 度 阔 值 
min_conf 的 关联 规则 。 

根据 关联 规则 中 项 的 类 别 不 同 ， 关 联 规则 可 以 分 为 布尔 型 和 数值 型 。 布 尔 型 关联 规 
则 处 理 的 值 都 是 离散 的 、 种 类 化 的 属性 ， 它 显示 了 这 些 属性 之 间 的 关系 ; 而 数值 型 关联 
规则 可 以 和 多 维 关联 或 多 层 关联 规则 结合 起 来 ， 对 数值 型 属性 进行 处 理 ， 将 其 进行 动态 
的 分 割 , 或 者 直接 对 原始 的 数据 进行 处 理 ， 当 然 数值 型 关联 规则 中 也 可 以 包含 种 类 变量 。 
例如 : 性 别 =“ 女 ”之 职业 =“ 秘 书 ” 是 布尔 型 关联 规则 性别 =“ 女 ”之 avg (收入) 
=2300， 涉 及 的 收入 是 数值 类 型 ， 所 以 是 一 个 数值 型 关联 规则 。 

关联 规则 也 可 以 分 为 单 层 关联 规则 和 多 层 关 联 规则 。 在 单 层 的 关联 规则 中 ， 所 有 的 
变量 都 没有 考虑 到 现实 的 数据 是 具有 多 个 不 同 的 层次 的 ; 而 在 多 层 的 关联 规则 中 ， 对 数 
据 的 多 层 性 已 经 进行 了 充分 的 考虑 。 例 如 : IBM 台式 机 之 Sony 打印 机 ， 是 一 个 细节 数 
据 上 的 单 层 关联 规则 ， 台 式 机 之 Sony 打印 机 ， 是 一 个 较 高 层次 和 细节 层次 之 间 的 多 层 
关联 规则 。 

另外 ， 根 据 规则 中 涉及 的 数据 的 维 数 ， 关 联 规 则 可 以 分 为 单 维 的 和 多 维 的 。 在 单 维 
的 关联 规则 中 ， 只 涉及 数据 的 一 个 维 ， 如 用 户 购买 的 物品 ;而 在 多 维 的 关联 规则 中 ， 要 
处 理 的 数据 将 会 涉及 多 个 维 。 换 名 话说 ， 单 维 关联 规则 是 处 理 单个 属性 中 的 一 些 关系 ; 
多 维 关 联 规则 是 处 理 各 个 属性 之 间 的 某 些 关系 。 例 如 : 啤酒 => 尿 布 ， 这 条 规则 只 涉及 用 
户 购买 的 物品 ;性别 =“ 女 ”之 职业 =“ 秘 书 ” 这 条 规则 就 涉及 两 个 字段 的 信息 ， 是 两 
个 维 上 的 一 条 关联 规则 。 

关联 规则 挖掘 通常 比较 适用 于 属性 值 为 布尔 型 的 事务 数据 库 。 如 果 原 始 数据 库 中 的 
属性 值 是 连续 型 ， 则 在 关联 规则 挖掘 之 前 应 该 进行 适当 的 数据 离散 化 ， 数 据 的 离散 化 是 
数据 挖掘 前 的 重要 环节 ， 离 散 化 的 过 程 是 否 合理 将 直接 影响 关联 规则 的 挖掘 结果 。 


关联 规则 挖掘 算法 是 关联 规则 挖掘 研究 的 主要 内 容 ， 迄 今 为 止 已 提出 了 许多 高 效 的 
关联 规则 挖掘 算法 ， 并 不 断 有 学 者 提出 对 这 些 算法 的 改进 方案 ， 以 提高 算法 的 性 能 。 关 
联 规则 算法 的 效率 通常 针对 需要 进行 的 数据 库 遍 历次 数 和 必须 进行 计数 的 项 集 的 最 大 数 
目 来 讨论 。 


1. 广度 优先 算法 


广度 优先 算法 自 底 向 上 地 搜索 整个 搜索 空间 ， 首 先生 成 候选 项 集 ， 然 后 测试 产生 的 
项 集 是 否 是 频繁 项 集 。 

经 典 的 广度 优先 算法 是 Agrawal 等 提出 的 Apriori、 AprioriTid 和 AprioriHybrid 算法 。 

Apriori 算法 利用 了 频繁 项 集 的 非 单调 性 : 如 果 一 个 万 项 集 是 非 频繁 项 集 ， 那 么 它 的 
超 集 一 定 是 非 频繁 项 集 。 因 此 ，Apriori 算法 只 用 频繁 万 项 集 构 造 (t+D- 项 集 来 作为 候选 项 
集 。 但 是 Apriori 需要 多 次 遍历 数据 库 ，IO 开销 大 。 

AprioriTid 算法 通过 把 事务 替换 成 该 事务 中 的 候选 项 集 来 减少 计算 支持 度 的 时 间 。 
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修改 后 的 事务 数据 库 用 C 表示 ， 在 之 前 的 若干 次 遍历 中 ，C 比较 大 ， 效 率 低 ， 当 CC 能 
够 放 在 内 存 中 的 时 候 , 效率 较 高 。 因此 , 算法 AprioriHybrid 合并 了 Apriori 和 AprioriTid， 
在 之 前 的 遍历 中 使 用 Apriori， 当 CG. 能 够 放 在 内 存 的 时 候 ， 转 换 到 AprioriTid。 所 以 ， 
AprioriHybrid 的 效率 比 Apriori 和 ArioriTid 都 要 高 。 


2. 深度 优先 算法 


深度 优先 算法 不 产生 候选 项 集 ， 而 是 利用 模式 增长 的 方法 。 典 型 的 深度 优先 算法 包 
括 FP-growth、Eclat、H-Mine 等 算法 。 

针对 Apriori 算法 的 固有 缺陷 (需要 多 次 遍历 数据 库 ), J.Han 等 提出 了 不 产生 候选 频 
繁 项 集 的 方法 : FP-growth 算法 。 采用 分 而 治之 的 策略 ， 在 经 过 第 一 遍 扫描 之 后 ， 把 数据 
库 中 的 频繁 项 集 压 缩 进 一 棵 频繁 模式 树 (FP-tree)， 同 时 依然 保留 其 中 的 关联 信息 ， 随 
后 再 将 FP-tree 分 化 成 一 些 条 件 库 ， 然 后 再 对 这 些 条 件 库 分 别 进行 挖掘 。 实 验 表 明 ， 
FP-growth 对 不 同 长 度 的 规则 都 有 很 好 的 适应 性 ， 同 时 在 效率 上 相 比 Apriori 算法 有 巨大 

研究 表明 ， 没 有 哪 种 算法 是 绝对 优秀 的 ， 它 们 仅 在 特定 的 支持 度 下 执行 效率 比 其 他 
算法 高 。 支 持 度 越 小 ,挖掘 出 来 的 频繁 项 集 和 关联 规则 越 多 ， 频 繁 项 集 的 最 大 长 度 越 长 。 
广度 优先 算法 在 挖掘 短 的 频繁 项 集 时 效率 较 高 ， 深 度 优先 算法 在 挖掘 长 的 频繁 项 集 时 效 
率 较 高 。 

由 于 许多 应 用 问题 远 比 购物 篮 问题 更 复杂 ， 大 量 研究 从 不 同 的 角度 对 关联 规则 挖掘 
算法 做 了 扩展 ， 将 更 多 的 因素 集成 到 关联 规则 挖掘 方法 之 中 ， 以 此 丰富 关联 规则 的 应 用 
领域 ， 拓 宽 支持 管理 决策 的 范围 ， 如 考虑 属性 之 间 的 类 别 层次 关系 、 时 态 关 系 、 多 表 挖 
掘 等 。 近 年 来 围绕 关联 规则 的 研究 主要 集中 于 两 个 方面 ， 即 扩展 经 典 关联 规则 能 够 解决 
问题 的 范围 ， 提 高 经 典 关联 规则 挖掘 算法 的 效率 和 规则 的 有 效 性 。 


€2 ) Apriori 算法 


Te 


Apriori 算法 是 发 现 关 联 规则 领域 的 经 典 算法 。 该 算法 将 发 现 关 联 规则 的 过 程 分 为 两 
个 阶段 第 一 阶段 ， 通 过 迭代 ， 检 索 出 事务 数据 库 中 的 所 有 频繁 项 集 ， 即 支持 度 不 低 于 
用 户 设 定 的 阔 值 的 项 集 ， 第 二 阶段 ， 利 用 频繁 项 集 构造 出 满足 用 户 最 小 置信 度 〈 或 者 其 
他 设 定 的 要 求 ) 的 规则 。 

具体 做 法 是 : 首先 找 出 所 有 的 频繁 1- 项 集 ， 记 为 五 ;然后 利用 石 来 产生 候选 2- 项 
集 组 成 的 集合 C， 对 Cz 中 的 2- 项 集 进行 判定 挖掘 出 频繁 2- 项 集 组 成 的 集合 L2， 不 断 如 
此 循环 下 去 直到 无 法 发 现 更 多 的 频繁 项 集 为 止 。 每 挖掘 一 层 I 就 需要 扫描 一 遍 整个 数 
据 库 。 

为 提高 频繁 项 集 逐 层 产 生 的 效率 ， 一 种 称 做 Apriori 性 质 的 重要 性 质 用 于 压缩 搜索 


空间 。 
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Apriori 性 质 ， 频繁 项 集 的 所 有 非 空 子 集 都 必须 也 是 频繁 的 。 

Apriori 性 质 基于 如 下 观察 : 根据 定义 ， 如 果 项 集 了 不 满足 最 小 支持 度 阔 值 min_sup， 
则 了 是 非 频繁 的 ， 即 PCD < min_sup 。 如 果 项 4 添加 到 I， 则 结果 项 集 ( 即 TU 4) 不 可 
能 比 了 更 频繁 出 现 。 因 此 ，TU 4 也 不 是 频繁 的 ， 即 PUU 4) < min_sup 。 


1. 生成 频繁 项 集 


Apriori 生成 频繁 项 集 的 具体 步骤 如 下 : 

(1) 根据 频繁 (k-1)- 项 集 组 成 的 集合 Le1， 产 生 全 部 候选 所 项 集 Ck: 令 p 和 g 是 Lk 
中 任意 两 个 不 同 的 项 集 (p 和 4 中 的 项 按照 字典 次 序 大 小 排列 )， 如 果 p 的 前 (k-2) 个 
项 和 g 的 前 (k-2) 个 项 都 相同 ， 并 且 4 的 最 后 一 个 项 比 p 的 最 后 一 个 项 要 大 ， 那 么 把 q 
的 最 后 那个 项 加 到 着 的 后 面 ， 使 之 成 为 一 个 候选 的 大 项 集 。 依 此 找 出 所 有 的 候选 的 大 项 
集 ， 组 成 Ck。 

(2) 对 Ck 进行 修剪 : 对 Ck 中 的 每 一 个 项 集 w， 检 查 w 的 每 一 个 (k-1) 子 集 是 否 为 
频繁 项 集 ， 只 要 有 一 个 子 集 不 是 频繁 项 集 ， 就 将 w 从 Ci 中 删除 。 

(3) 计算 Ci 中 每 一 个 项 集 w 的 支持 度 : support= 部 ， 其 中 N; 是 包含 项 集 w 的 事务 


的 数量 ，N 是 全 部 事务 的 数量 。 

(4) 将 support> min_sup 的 项 集 添加 到 频繁 项 集中 。 

(5) 只 要 能 够 找到 频繁 项 集 ， 并 且 小 于 用 户 预 先 定义 的 最 大 值 hsx， 重 复 上 面 
的 步 又， 寻找 频繁 (ke+1)- 项 集 。 

下 面 以 表 5-1 中 的 数据 为 事务 数据 库 ， 用 上 面 阐述 的 步骤 ， 挖 掘 其 中 的 频繁 项 集 。 

取 最 小 支持 度 阔 值 min_sup=0.22。 

候选 1- 项 集 为 Cr={{ 牛 奶 }，{ 果 冻 }，{ 啤 酒 }，{ 面 包 }，{ 花 生 着 }}。 计 算 各 1- 项 集 
的 支持 度 为 : 

{牛奶 }:， support=6/9=0.67 三 min_sup; 。 {果冻 }: support7/9=0.78=min sup; 

{啤酒 }: support=6/9=0.67=min sup; 。 {面包}: support=2/9=0.22>min_sup; 

{ 花 生 着 }: support=2/9=0.22=min_ sup。 
因此 ， 频 繁 1- 项 集 为 LI={{ 牛 奶 }，{ 果 冻 }，{ 啤 酒 }，{ 面 包 }，{ 花 生 交 }}。 

然后 根据 Li 生成 候选 2- 项 集 C: 

Cs 一 {{ 牛 奶 , 果冻}，{ 牛 奶 ， 啤 酒 }，{ 牛 奶 ， 面包 }，{ 牛 奶 ,， 花 生效 }，{ 果 冻 ， 啤 酒 }， 
{果冻 ， 面 包 }，{ 果 冻 ， 花 生 桨 }，{ 啤 酒 ， 面 包 }，{ 啤 酒 ， 花 生 桨 }，{ 面 包 ， 花 生活 }}。 
由 于 Cs 中 各 项 集 的 子 集 均 为 频繁 1- 项 集 ， 因 此 没有 项 集 被 修剪 。 计 算 各 2- 项 集 的 支持 
度 为 : 

{牛奶 , 果冻 }: support=4/9=0.44 宇 min_sup; {牛奶 , 啤酒 }: support=4/9=0.44 三 min_sup; 

{牛奶 ， 面 包 }: support=1/9=0.11<min_sup; {牛奶 ， 花 生效 }: support=2/9=0.22 三 
min_sup; 

{果冻 , 啤酒 }: support=4/9=0.44=min sup; {果冻 , 面包 }: support=2/9=-0.22>=min sup; 

{果冻 ， 花 生效 }: support=2/9=0.22min_sup; {啤酒 ， 面 包 }: support=0<min_sup; 

{啤酒 ， 花 生效 }: support=1/9=0.11<min_sup; {面包 ,花生 交 }: support=0<min_sup。 
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因此 ， 频 繁 2- 项 集 为 Z2-{{ 牛 奶 ， 果 冻 }，{ 和 牛奶， 啤酒 }，{ 和 牛奶， 花生 效 } ，{ 果 冻 ， 
啤酒 }，{ 果 冻 ， 面 包 }，{ 果 冻 ， 花 生 着 颁 。 

然后 根据 五 生成 候选 3- 项 集 Cs: 

Cs={{ 和 牛奶， 果冻， 啤酒 }，{ 和 牛奶 ， 果 冻 ， 花 生 着 }，{ 和 牛奶 ， 啤 酒 ， 花 生效 } ，{ 果 冻 ， 
啤酒 ， 面 包 }，{ 果 冻 ， 啤 酒 ， 花 生 着 } ，{ 果 冻 ， 面 包 ， 花 生 着 }} 。 

对 C3 进行 修剪 : 

{牛奶 ， 啤 酒 ， 花 生 桨 } 的 子 集 {啤酒 ， 花 生效 } 不 是 L 的 元 素 ， 即 不 是 频繁 项 集 ， 从 
Cs 删除 ， 
{ 果 冻 ， 啤 酒 ， 面 包 } 的 子 集 { 啤 酒 ， 面 包 } 不 是 频繁 项 集 ， 从 Cs 删除 ; 
{ 果 冻 ， 啤 酒 ， 花 生效 } 的 子 集 { 啤 酒 ， 花 生 着 } 不 是 频繁 项 集 ， 从 Cs 删除 ; 
{ 果 冻 ， 面 包 ， 花 生效 } 的 子 集 { 面 包 ， 花 生 桨 } 不 是 频繁 项 集 ， 从 Cs 删除 。 
计算 各 3- 项 集 的 支持 度 为 : 
{牛奶 ， 果 冻 ， 啤 酒 }: support=2/9=0.22=min sup; 
{ 和 牛奶 ， 果 冻 ， 花 生 桨 }: support=2/9=0.22>min sup。 
因此 ， 频 繁 3- 项 集 为 Za={{ 牛 奶 ， 果 冻 ， 啤 酒 }，{ 和 牛奶 ， 果 冻 ， 花 生效 人 。 
然后 根据 L 生成 候选 4- 项 集 C4: Cs={{ 和 牛奶， 果冻， 啤酒， 花生 着 }}， 但 由 于 { 牛 
果冻 ， 啤 酒 ， 花 生 着 } 的 子 集 { 果 冻 ， 啤 酒 ， 花 生效 } 不 在 三 中 ， 所 以 将 其 删除 。 
所 以 ， 本 例 的 全 部 频繁 项 集 为 : 工 = 五 UI， 频繁 1- 项 集 被 排除 在 外 ， 因 为 一 个 项 
无 法 构成 关联 规则 。 


2. 根据 频繁 项 集 产生 关联 规则 


在 得 到 全 部 频繁 项 集 工 后 ， 算 法 根据 这 些 频繁 项 集 产 生 关联 规则 ， 步 骤 如 下 : 

(1) 对 于 工 中 的 每 一 个 频繁 项 集 /， 产 生 7 的 所 有 非 空子 集 。 

(2) 对 于 1 的 每 个 非 空子 集 4， 如 果 满 足 设 定 的 评估 准则 (默认 的 评估 准则 是 规则 
的 园 信 度 大 于 等 于 最 小 置信 度 闵 值 ， 即 -PP 人 D> min conf ，support(D 和 support(4) 

support(A) 
分 别 是 项 集 1 和 4 的 支持 度 )， 则 输出 规则 “4 之 卫 ” 其 中 也 =1-4。 

一 个 生成 的 规则 是 否 最 终 被 保留 下 来 ， 要 看 它 是 否 满足 评估 准则 。 虽 然 默认 的 评估 
准则 是 置信 度 大 于 等 于 最 小 置信 度 闵 值 ，Apriori 算法 同时 提供 了 多 种 对 规则 进行 评估 的 
方法 ， 以 从 不 同 的 侧面 来 考察 一 个 规则 ， 并 最 终 确定 那些 真正 让 我 们 感 兴趣 的 规则 。 这 
些 评估 准则 都 是 基于 两 个 基本 的 参数 ， 即 “前 置信 度 ”(Prior Confidence) 和 “后 置信 度 ” 
(Posterior Confidence )， 它 们 的 定义 如 下 : 


前 置信 度 Co = 马 ， 后 置信 度 ooor = 工 。 其 中 ，e 是 规则 后 项 的 支持 度 ，a 是 规 


奶 


posterior 
则 前 项 的 支持 度 ，r 是 规则 前 项 和 后 项 的 联合 支持 度 〈 即 “前 项 U 后 项 ”组 成 的 项 集 的 
支持 度 ， 也 称 “ 规 则 支持 度 ”)，N 是 数据 库 中 的 事务 总 数 。 
对 于 规则 的 度量 值 e，Apriori 算法 提供 以 下 几 种 对 规则 的 评估 度量 : 
(1) 规则 的 置信 度 。 默 认 的 评估 度量 ， 就 是 直接 用 后 置信 度 来 表示 : 


看 三 Ga 
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(2) 置信 度 差 。 用 前 、 后 置信 和 度 的 差 的 绝对 值 来 表示 : 
© Cposterior Ci | 
在 结果 不 呈 均 匀 分 布 时 ， 该 选项 能 避免 偏 傈 。 这 有 助 于 避免 em 的 规则 被 保留 
在 规则 集中 。 比 如 ， 实 际 情况 可 能 是 有 80% 的 顾客 购买 最 畅销 的 产品 。 预 测 85% 的 顾客 
购买 该 产品 的 规则 并 不 能 增加 多 少 知识 ， 尽 管 从 绝对 数 的 角度 看 85% 的 精确 度 非 常 好。 
(3) 置信 度 比率 。 这 种 度量 基于 前 、 后 置信 度 的 比值 : 


e=1— win 人 Coe | 
Ga Ga 


该 度量 尤其 擅长 发 现 预测 罕见 事件 的 规则 。 比 如 ， 假 定 有 一 种 罕见 的 病情 仅 在 1% 
的 病人 中 发 生 ， 能 够 在 10% 的 时 间 里 预测 这 种 情况 的 规则 相对 于 随机 猜测 而 言 是 很 大 的 
进步 ， 但 是 从 绝对 数 的 角度 看 ，10% 的 精确 度 似乎 并 不 具有 很 强 的 说 服 力 。 

(4) 信 和 这 是 pe 

1-a— | 


ey 
其 中 ,+ 是 规则 的 支持 度 ，a 是 前 项 支持 度 ，c 是 后 项 支持 度 ，4#=1-a，5=1-c。 
信息 差 是 给 定 前 提 条 件 后 的 信息 增益 与 只 给 定 结论 先 验 置信 度 时 的 信息 增益 之 间 的 
差 值 。 这 种 度量 的 一 个 重要 特征 是 考虑 了 支持 度 ， 这 样 在 给 定 置信 水 平 下 ， 秦 盖 记 录 更 
多 的 规则 易 被 保留 。 
(5) 标准 化 卡 方 (Normalized Chi-square)。 这 种 度量 方法 是 基于 对 独立 的 离散 型 数据 
的 卡 方 统计 检验 : 
PC 
aacc 
这 项 度量 是 前 提 条 件 与 结论 之 间 相 关 性 的 统计 指数 。 这 项 度量 经 过 标准 化 ， 取 值 为 
一 1。 这 项 度量 比 信息 差 更 依赖 于 支持 度 。 
以 前 文中 生成 的 频繁 项 集 为 例 ， 例 如 { 咎 奶 ， 果 冻 ， 花 生效 }， 以 规则 的 置信 度 为 评 
估 度 量 ， 设 最 小 置信 度 阔 值 min_con 人 70%， 产 生 强 规则 的 过 程 如 下 : 
{牛奶 ， 果冻 ， 花 生 淆 } 的 所 有 非 空子 集 有 : { 和 牛奶 ， 果 冻 }，{ 牛 奶 ， 花 生 桨 }，{ 果 冻 ， 


花生 桨 }，{ 牛 奶 }，{ 果 冻 }，{ 花 生 着 }， 列 出 所 有 的 规则 及 其 置信 度 为 : 


R1: 牛奶 和 果冻 之 花生 着 ， confidence = 07 =50% <min conf ; 


R2: 牛奶 人 花生 桨 二 果冻 ， confidence= 2 =100% > min_ conf ; 


R3: 果冻 人 花生 桨 之 牛奶 ， confidence= =10096 三 min _conf ; 


R4: 牛奶 之 果冻 人 花生 桨 ， confidence = =33% < min_ conf : 


R5: 果冻 之 牛奶 入 花生 酱 ， confidence = =28% <min conf ; 
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R6: 花生 桨 之 牛奶 入 果冻 ，confidence = =100% =min conf。 


因此 ， 根 据 频繁 项 集 {牛奶 ， 果 冻 ， 花 生 桨 } 产 生 的 强 规则 是 RR、R3 和 R6。 
3. Apriori 算法 描述 


整个 算法 由 两 个 部 分 组 成 : Apriori 算法 和 Apriori-gen 算法 。 其 中 Apriori 算法 为 主 
算法 ， 其 中 调用 了 Apriori-gen 算法 ， 用 以 根据 频繁 (i-1)- 项 集 Li 生成 候选 六 项 集 Cr。 
(1) Apriori 算法 。 
输入 : 
7 /基本 项 目 集合 
DD”// 事 务 数据 库 
s /支持 度 阔 值 


工 。 /频繁 项 集 


k=0; /Wk 表示 遍历 数据 库 的 次 数 
L=@: 
Ci= /候选 1- 项 集 为 基本 项 目 集合 
Repeat 
k=kt+1; 
Lr=@; 
foreach LEC: do 
{c=0; /每 一 个 项 集 的 初始 计数 设 为 0 
for each 1ED do 
if LEtthen c=c+1:} 
ifc>=(sX|D|) then Lr=LrUE; 
L=LUL«: 
Ci+1= Apriori-Gen (LR) 
Until Cen=@ 
(2) Apriori-gen 算法 。 
输入 : 
Li // 频 繁 (1)- 项 集 


Gi /候选 去 项 集 
算法 了 
C=@; 
for each TELi1 do 
for each J#* JIELi1 do 
1f i2 of the elements in T and .Jare equal then 
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Cr= CrU {UD; 


执行 关联 规则 挖掘 的 主要 难点 在 于 ， 有 太 多 的 可 能 的 规则 。 就 拿 购物 篮 分 析 来 说 ， 
一 个 超市 的 产品 种 类 成 千 上 万 ， 控 掘 后 生成 的 规则 数量 也 将 十 分 庞大 。 很 显然 ， 这 么 多 
的 规则 ， 不 可 能 一 个 一 个 地 进行 检查 和 处 理 。 必 须要 有 有 效 的 算法 ， 来 压缩 搜索 空间 ， 
降低 计算 代价 ， 但 同时 又 不 会 丢失 重要 的 规则 。 

在 Clementine 中 执行 Apriori 算法 的 方法 是 由 Christian Borgelt 和 Rudolf Kruse 提出 
的 。 为 了 找到 一 个 频繁 项 集 ， 就 必须 计算 包含 这 个 频繁 项 集 的 事务 数量 。 在 Christian 
Borgelt 和 Rudolf Kruse 提出 的 方法 中 ， 把 这 些 项 集 的 计数 器 组 织 起 来 ， 成 为 一 种 特殊 的 
“前 缀 树 ”(Prefix Tree)， 树 上 的 每 一 个 节点 代表 了 一 个 项 集 的 计数 器 。 这 种 数据 结构 可 
以 以 很 小 的 内 存 需求 来 有 效 地 存储 计数 信息 ， 同 时 也 可 以 用 于 对 事务 的 处 理 ， 以 生成 规 
则 。 关 于 该 方法 的 细节 ， 可 以 参见 相关 的 资料 (http://fuzzy.cs.uni-magdeburg.de/ ~borgelt/ 
doc/apriori/apriori.html ) 。 

本 例 在 Clementine 中 应 用 Apriori 节点 来 对 某 超市 的 客户 采购 数据 集 进行 购物 篮 分 
析 。 该 数据 集 包含 有 22 个 属性 〈 这 些 属性 包括 : COD、pasta、milk、water、biscuits、 
coffee、brioches、yoghurt、frozen vegetables、tunny、beer、tomato、souce、coke、Tice、 


juices、crackers、oil、frozen fish、ice cream、mozzarella、tinned meat。 其 中 COD 是 记 
录 编 号 ， 其 他 20 个 属性 代表 20 种 商品 )， 共 46243 个 记录 。 每 个 属性 代表 某 种 商品 ， 其 
取 值 为 “0” 或 者 “1”,“0” 表 示 没 有 购买 该 商品 ,“1” 表 示 购 买 了 该 商品 。 数 据 集 存储 
在 Transactions.txt 文件 中 ， 如 表 5-2 所 示 。 

表 5-2 ”购物 篮 分 析 数 据 集 


COD milk water biscuits coffee brioches yoghurt ... tinned meat 
1 0 0 0 0 0 0 0 1 
2 0 1 0 0 0 0 0 0 
3 1 1 0 0 0 0 0 0 
4 0 0 1 0 0 0 0 0 
5 0 0 0 0 0 0 0 0 
6 1 1 0 1 0 0 0 0 
党 0 1 0 1 0 0 0 0 
8 1 0 0 0 0 0 0 0 
9 0 0 0 0 0 0 0 0 
10 0 0 0 1 0 0 0 0 
11 0 0 0 0 0 0 0 1 
12 1 1 0 0 1 0 0 0 
46243 0 0 1 0 0 0 0 0 


对 该 数据 集 用 Apriori 节点 进行 购物 篮 分析 的 数据 流 如 图 5.1 所 示 。 
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Transactions.txt 


图 5.1 购物 篮 分 析 数 据 流 


1. 生成 模型 


首先 ， 将 “数据 源 ” 中 的 “可 变 文 件 ” 节 点 添加 到 数据 流 区 域 ， 并 将 Transactions.txt 
文件 加 载 到 该 节点 ， 如 图 5.2 所 示 。 


Diclementinet 书 稿子 第 五 章 \Transaction tt 


文件 :| Diclementine' 书 箱子 第 五 章 \Transaction tt 国 
“COD” “pasta” "milk” “water” “biscuits” “coffee” “brioches” “yoghurt" 本 
1 0 0 0 0 0 0 0 1 0 

2 0 1 0 0 0 0 0 0 0 

3 1 1 0 0 0 0 0 0 0 0 

FY WS 

回 读 职 文件 中 的 字段 名 口 指定 字段 数 IS| 

由 过 标题 字符 : 0 自 EOL 注解 字符 : 


| 去除 开头 和 结尾 的 空格 : 加 无 〇 左 〇 右 〇 两 者 


无 效 字符 : 回 雪 弃 〇 兰 换 为 
编码 ; 流 默 认 值 。 | 小 数 符 号 : 流 默认 值 = 
定 界 符 类 型 的 扫 措 行 数 : 5 个 
回 空白 回 逗号 加 选项 卡 引号 
中 新 行 口 其 他 单 引号 :| 丢弃 = 
非 打印 中 字符 观 aI 导 :| 丢弃 ”二 
| 
允许 使 用 多 个 空白 定 界 符 
文件 | 数据 | 过 小 | 类 型 | 注解 
EE 


5.2 ”设置 数据 源 节点 


注意 ， 由 于 在 Transactions.txt 文件 中 ， 属 性 之 间 是 用 制 表 符 来 间隔 的 ， 所 以 在 “ 定 
界 符 ” 选 项 中 选中 “选项 卡 ”( 选 项 卡 ， 即 Tab， 也 就 是 制 表 符 )。 
向 数据 流 中 添加 “ 表 ” 节 点 ， 并 建立 从 Transactions.txt 节点 到 “ 表 ” 节 点 的 连接 ， 
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执行 “ 表 ” 节 点 ， 即 可 浏览 数据 集中 的 数据 ， 如 图 5.3 所 示 。 
澡 | 
[ 司 文 件 门 编辑 多 生成 
COD| pasta| milk| water| biscuits| coffee| brioches| yoghurt| froze 
1 0 0 0 0 0 0 0 四 
2 2 0 1 0 0 0 0 0 医 
3 3 1 0 0 0 0 0 
4 4 0 0 天 0 0 0 0 
5 5 0 0 0 0 0 0 0 
6 6 下 1 0 1 0 0 0 
了 了 0 1 0 1 0 0 0 
8 8 1 0 0 0 0 0 0 
9 9 0 0 0 0 0 0 0 
10 10 0 0 0 1 0 0 0 
11 11 0 0 0 0 0 0 0 
12 12 1 1 0 0 1 0 0 
13 13 1 1 0 0 0 0 0 
14 1 到 
1 这 » 

表 | 注解 

到 

图 5.3 浏览 数据 集 


向 数据 流 中 添加 “类 型 ”节点 ， 并 建立 从 Transactions.txt 节点 到 “类 型 ”节点 的 连 
接 ， 对 “类 型 ”节点 进行 设置 : 将 COD 字段 的 方向 设置 为 “无 ”( 因 为 该 字段 只 是 记录 
编号 ， 没 有 实际 意义 ， 因 此 不 参与 建 模 )， 把 其 他 20 个 字段 的 类 型 设置 为 “标志 ” 并 把 
它们 的 方向 都 设置 为 “两 者 ”( 即 输入 和 输出 双向 )， 最 后 单 击 “ 读 取 值 ”按钮 ， 如 图 5.4 
所 示 。 


BD 回 g 
A 圆 中 | 户 这 了 全] 洁 队伍 | 洁 除 所 有 人 | 
类 型 什 


Ea 缺失 检查 方向 

3 CoD 本 

心 pasta 10 无 将 两 者 

CY milk 10 无 固 两 者 

人 water 10 无 固 两 者 

> biscuits 10 无 阅 两 者 

© coffee 10 无 固 两 者 

CY brioches 10 无 固 两 者 

> Yoghurt 10 无 固 两 者 
frozen_v. 10 无 阅 两 者 “上 


回 查看 当前 字段 “C 〇 查看 未 使 用 的 字段 设置 


类 型 | 格式 | 注解 
EE 

图 5.4 设置 “类 型 ”节点 
向 数据 流 中 添加 Apriori 节点 ， 建 立 从 “类 型 ”节点 到 Apriori 节点 的 连接 ， 然 后 对 
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Apriori 节点 进行 设置 ， 在 “模型 ”标签 下 的 设置 如 图 5.5 所 示 。 


会 | 四 
名 称 : OB © BE | 二 

可 使 用 分 区 数据 

低 条 件 支持 度 - soE 

小 规则 置信 度 (%)。 | “500 上 
最 大 前 项 数 : s 同 
回避 包含 标 志 变量 的 真 值 
化: 回 速度 〇 内 存 
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图 5.5 设置 Apriori 节点 


图 5.5 中 的 各 选项 说 明 如 下 : 
模型 名 称 (Model Name): 指定 要 产生 的 模型 名 称 。 
口 自动 (Auto ): 选择 该 选项 后 ， 模 型 名 称 将 根据 目标 字段 或 者 后 项 字段 自动 生 

成 。 这 是 默认 的 设置 。 

口 自 定义 (Custom ): 选择 该 选项 可 以 为 节点 创建 的 模型 指定 用 户 定义 的 模型 名 称 。 

这 里 选择 “ 自 定义 ”， 为 模型 取 名 为 “购物 篮 ”。 

使 用 分 区 数据 (Use Partitioned Data): 如 果 用 户 定义 了 分 割 数 据 集 ， 选 择 训练 数据 
集 作为 建 模 数据 集 ， 并 利用 测试 数据 集 对 模型 评价 。 

最 低 条 件 支持 度 (Minimum Antecedent Support): 用 户 自 定义 最 小 支持 度 阔 值 。 
注意 ， 这 个 支持 度 是 指 规则 的 前 项 支持 度 ， 即 规则 的 正 部 分 的 支持 度 ， 而 不 是 指 规则 支 
持 度 。 如 果 得 到 的 规则 适用 于 数据 集 的 很 小 一 部 分 子 集 ， 尝 试 提高 该 项 设置 。 这 里 将 最 
低 条 件 支 持 度 设置 为 “5.0”。 

最 小 规则 置信 度 (Minimum Rule Confidence): 用 户 自 定义 最 小 置信 度 阔 值 。 署 信 
度 比 该 阅 值 小 的 规则 将 被 丢弃 。 如 果 得 到 的 规则 太 多 ， 尝 试 提高 该 项 设置 ， 如 果 得 到 的 
规则 太 少 (或 者 根本 就 没有 规则 ) ， 尝 试 降 低 该 项 设置 。 这 里 将 最 小 规则 置信 度 设 置 为 
TH 

最 大 前 项 数 (Maximum Number of Antecedents): 可 以 指定 任 一 规则 的 最 大 前 项 数 。 
这 是 限制 规则 复杂 程度 的 一 种 方法 。 如 果 规 则 过 于 复杂 或 者 过 于 具体 ， 尝 试 降低 该 项 设 
置 。 该 项 设置 对 训练 时 间 也 有 很 大 影响 。 如 果 对 规则 集 的 训练 时 间 过 长 ， 尝 试 降低 该 项 
设置 。 这 里 将 最 大 前 项 数 设 置 为 “5”。 

仅 包 含 标志 变量 的 真 值 (Only True Values for Flags): 如 果 选 择 了 该 选项 ， 只 有 真 
值 会 出 现在 最 终 的 规则 中 。 这 有 助 于 理解 规则 。 

优化 COptimize) : 选择 “速度 ”(Speed) 使 算法 运行 加 快 , 但 是 占用 更 多 的 内 存 。 
选择 “内 存 ” (Memory) 使 运行 速度 减 慢 ， 但 是 节约 内 存 。 


关联 规则 


在 Apriori 节点 的 “专家 ”标签 下 可 以 对 节点 进行 高 级 选项 设置 ， 如 图 5.6 所 示 。 


估 kapriori 


图 5.6 Apriori 节点 的 高 级 选项 


将 “模式 ”选项 设置 为 “专家 ”， 可 以 选择 不 同 的 评估 尺度 。Apriori 提供 5 种 评估 
潜在 规则 的 方法 。 这 里 选择 “规则 置信 度 ”。 

允许 没有 前 项 的 规则 (Allow Rules Without Antecedents) : 选中 该 选项 允许 规则 只 
有 后 项 而 没有 前 项 。 当 用 户 关心 哪些 项 是 频繁 发 生 的 时 候 ， 可 以 选择 该 选项 。 

例如 ，“ 饶 装 蔬菜 ”是 一 个 没有 前 项 的 1- 项 集 规则 ， 它 表示 购买 饶 装 蔬菜 在 数据 集 
中 是 频繁 发 生 的。 在 很 多 情况 下 ， 用 户 可 能 要 做 出 最 确信 的 预测 ， 因 此 需要 这 些 没 有 前 
项 的 规则 。 该 选项 默认 是 未 选中 的 。 按 照 约 定 , 没有 前 项 的 规则 的 “前 项 支持 度 ” 为 100%， 
因此 规则 的 支持 度 就 等 于 置信 度 。 

对 Apriori 节点 设置 完毕 后 ， 单 击 “ 执 行 ”按钮 ， 即 可 在 管理 器 窗口 的 “模型 ”标签 
下 生成 “购物 篮 ” 模 型 。 


2. 浏览 模型 


对 生成 的 模型 进行 浏览 ， 可 以 看 到 所 有 的 规则 及 其 相关 信息 。 右 击 “ 模 型 ”标签 下 
生成 的 “购物 篮 ” 模 型 ， 在 快捷 菜单 中 选择 “浏览 ”命令 ， 即 可 打开 模型 对 话 框 ， 如 图 
5.7 所 示 。 

在 对 话 框 的 “模型 ”标签 下 ， 可 以 看 到 一 张 表 ， 显 示 了 Apriori 算法 根据 数据 集 生成 
的 规则 。 表 中 的 每 一 行 代 表 了 一 个 规则 。 第 一 列 代表 规则 后 项 《〈 即 规则 的 then 部 分 )， 
第 二 列 代表 规则 前 项 〈 即 规则 的 下 部 分 )。 后 面 的 几 列 显示 了 规则 的 相关 信息 ， 如 置信 
度 、 支 持 度 等 ， 如 果 想 显示 规则 的 其 他 信息 ， 可 以 单 击 对 话 框 上 方 的 “显示 /隐藏 标准 ” 
按 馈 [一]. 下 列 7 项 信息 可 以 在 表 中 显示 : 

(1) 规则 ID (Rule ID): 显示 规则 的 编号 。 

(2) 实例 (Instances): 显示 数据 集中 包含 规则 前 项 的 事务 数量 。 例 如 规则 “biscuits 
and water 之 milk” 的 实例 为 “2734”， 表 示 在 数据 集中 有 2734 个 事务 包含 规则 的 前 项 
{biscuits, water} 。 
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国 Xf 94 成 图 
[名 [ST 半生 提 闻 EEC 


biscuits 

Water 

yoghurt 

pasta 

biscuits 

pasta 
brioches 
pasta 
tomato_souce 
milk 

coffee 

pasta 

Water 

pasta 
tomato_souce 
pasta 

juices 
tomato_souce 
yoyhurt 

rice 

biscuits 
tomato_souce 


图 5.7 浏览 生成 的 关联 规则 模型 


(3) 支持 度 (Support) : 显示 规则 的 前 项 支持 度 。 它 是 “包含 规则 前 项 的 事务 数量 ” 
( 即 实例 ) 占 全 部 事务 数量 的 比例 。 例 如 “biscuits and water 之 milk” 的 支持 度 为 : 


2734 x100o6 -5.912946 。 
46243 


(4) 规则 支持 度 (Rule Support) : 显示 “同时 包含 规则 前 项 和 后 项 的 事务 数量 ” 
占 全 部 事务 数量 的 比例 。 例 如 规则 “biscuits and water milk” 的 规则 支持 度 为 3.562%， 
表示 数据 集中 有 3.562% 的 事务 包含 项 集 {biscuits, water, milk} 。 

(5) 置信 度 (Confidence): 显示 规则 支持 度 和 前 项 支持 度 的 比值 。 例如 规则 “biscuits 


， Wal 3.562%% 
and water 二 milk” 的 置信 : 
信 度 为 5.912% 


(6) 提升 (Lift): 用 规则 的 置信 度 除 以 规则 后 项 的 支持 度 所 得 的 比值 ， 即 为 提升 。 
例如 规则 “biscuits and water 之 milk” 的 置信 度 为 60.241%， 其 后 项 “milk” 的 支持 度 
为 46.132% (在 全 部 46243 个 事务 中 ， 有 21333 个 事务 包含 “milk”， 因 此 “milk” 的 支 
持 度 为 2333 60.241% 


x100% = 46.132% )， 所 以 该 规则 的 提升 L 进 = 一 一 一 -=1.306 。 它 的 具体 
含义 是 这 样 的 : 在 46243 个 客户 组 成 的 人 群 中 ， 购 买 “milk” 的 概率 为 46.132%， 如 果 


x100% = 60.241% 。 


46243 46.132% 
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对 人 和 群 加 以 限制 ， 即 购买 了 “biscuits” 和 “water” 的 客户 组 成 的 人 群 ， 那 么 这 个 人 群 购 
买 “milk” 的 概率 为 60.241%， 通 过 对 人 群 进行 特定 的 限制 ， 可 以 使 “milk” 被 购买 的 概 
率 提高 1.306 倍 。 如 果 某 个 规则 的 提升 值 接近 于 1, 就 说 明 这 个 规则 前 项 的 条 件 限制 并 没 
有 使 这 个 规则 后 项 发 生 的 概率 提高 多 少 。 所 以 ， 提 升值 比 1 大 很 多 的 那些 规则 比 提升 值 
接近 于 1 的 规则 更 有 价值 。 

(7) 部 署 能 力 (Deployability): 它 是 一 个 比值 ， 即 那些 支持 规则 前 项 但 不 支持 规则 
后 项 的 事务 ， 占 全 部 事务 的 比例 。 例 如 规则 “biscuits and water 之 milkk”， 支持 “biscuits 
and water ”但 不 支持 “milk” 的 事务 数量 为 1087， 所 以 该 规则 的 部 署 能 力 为 : 
2 x100% =2.351% ， 表 示 有 2.351% 的 客户 虽然 购买 了 “biscuits” 和 
“water”， 但 却 并 没有 购买 “milk”。 因 此 ， 一 个 部 署 能 力 比较 大 的 规则 ， 说 明 该 规则 后 项 
的 发 生 概率 还 有 较 大 的 提高 空间 。 

另外 ， 用 户 可 以 通过 单 击 “ 排 序 方式 ”后 面 的 下 拉 列 表 框 选择 多 种 排序 方式 。 有 6 
种 排序 方式 : 支持 度 、 置 信 度 、 规 则 支持 度 百分比 、 后 项 、 提 升 、 部 署 能 力 。 通 过 单 击 [2 
按钮 ， 可 实现 “升序 ”和 “降序 ”的 切换 。 

当 生 成 的 规则 很 多 ， 而 只 想 显示 某 些 特定 的 规则 时 ， 可 以 单 击 “显示 过 滤器 ”按钮 
加, 并 打开 “编辑 过 滤器 ”对 话 框 ， 设 定 规则 过 滤 规 则 ， 然 后 启用 过 滤器 ， 即 可 在 规 
则 列表 中 只 显示 经 过 滤 后 的 规则 。 例 如, 如 果 只 想 显示 后 项 包含 “milk” 前 项 包含 “pasta” 
的 规则 ， 则 可 以 按照 如 图 5.8 所 示 来 设置 过 滤器 ， 然 后 单 击 “ 确 定 ” 按 钮 即 可 。 


Deployability = 


之 上 | 最 小 


之 上 | 最 小 


大 于 | 景 小 1 周 辟 


[EJ 


5.8 ”编辑 规则 过 滤器 


在 对 话 框 的 “汇总 ”标签 中 ， 则 显示 了 该 模型 的 一 些 概要 信息 ， 例 如 规则 数 、 最 大 
支持 度 、 最 大 提升 等 ， 也 显示 了 关于 本 次 建 模 的 其 他 记录 ， 如 图 5.9 所 示 。 
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er 本 
国文 件 虽 ”区 生成 (Q) 5 
辣 ] 多 全 i 委 (C) | 名 全 部 展开 | 
日 -如 分 析 

-规则 数 : 14 

一 有 效 事务 数 : 46,243 


一 景 小 支持 度 : 5.279% 
一 最 大 支持 度 : 20.474% 
一 最 小 置信 和 度 : 51.277% 
最 大 置信 度 : 60.241% 
一 最 小 提升 : 1.112% 
最 大 提升 : 1.634% 
一 最 低 部 署 能 力 : 0.0% 
一 最 高 部 署 能 力 0.0% 
最 低 规 则 支持 度 : 0.0% 
一 最 高 规则 支持 度 : 0.0% 
向 字段 
向 构建 设置 
向 训练 概要 


模型 | 汇总 | 注解 


图 5.9 关联 规则 模型 的 汇总 信息 


Ss ) CARMA 算法 


CARMA (the Continuous Association Rule Mining Algorithm) 是 一 种 比较 新 的 关联 规 
则 算法 ， 它 是 1999 年 由 Berkeley 大 学 的 Christian Hidber 教授 提出 来 的 。 它 是 一 种 占用 
内 存 少 , 能够 处 理 在 线 连续 交易 流 数 据 的 一 种 新 型 的 关联 规则 挖掘 算法 。 它 有 以 下 特点 : 
算法 执行 过 程 中 即 能 不 断 产 生 部 分 计算 结果 ,供用 户 参 考 ; 在 算法 执行 过 程 中 , 用户 能 根 
据 产 生 的 部 分 计算 结果 控制 算法 如 何 进行 下 去 ， 算 法 给 出 的 结果 必须 是 精确 的 。 在 线 挖 
掘 关 联 规则 的 算法 允许 用 户 随时 调整 最 小 支持 度 阀 值 ， 以 得 出 合理 的 结果 ， 如 果 中 间 结 
果 已 经 令 人 满意 ， 用 户 也 可 以 随时 终止 算法 的 执行 。 
和 Apriori 算法 一 样 , CARMA 算法 也 包括 两 个 阶段 。 第 一 阶段 根据 事务 数据 库 产生 
频繁 项 集 ， 第 二 阶段 根据 频繁 项 集 产生 关联 规则 ， 其 中 第 一 阶段 的 处 理 是 算法 的 核心 
部 分 。 

为 了 发 现 频繁 项 集 ，CARMA 需要 遍历 整个 事务 数据 库 两 次 ， 分 别 由 两 个 算法 来 实 
现 。 第 一 次 遍历 称 为 PhaseI， 第 二 次 遍历 称 为 PhaseI[。PhaseI 产生 一 个 频繁 项 集 的 候选 
集 ， 称 为 潜在 的 频繁 项 集 的 集合 。PhaseII 把 PhaseI 产生 的 集合 进行 删 减 ， 得 出 最 终 的 结 
果 。 由 于 算法 本 身 的 特点 ， 第 二 次 遍历 并 不 一 定 需要 进行 完 ， 甚 至 很 多 时 候 第 二 阶段 不 
需要 做 。 另 外 ，CARMA 算法 还 有 一 个 很 好 的 性 质 ， 就 是 在 遍历 事务 数据 库 的 过 程 中 可 


关联 规则 


以 不 断 地 改变 支持 度 阔 值 ， 以 控制 输出 规则 的 大 小 和 数目 ， 这 是 其 他 关联 规则 挖掘 算法 
所 没有 的 。 
1. Phasel 算法 


在 第 一 次 遍历 中 ，Phasel 生成 一 个 由 所 有 潜在 的 频繁 项 集 组 成 的 超 集 V， 并 且 用 一 
个 栅 格 数据 结构 〈lattice) 来 存储 VV 中 每 个 项 集 的 相关 信息 。 在 遍历 数据 库 的 过 程 中 ， 
Phasel 按照 事务 编号 一 个 一 个 地 处 理 数 据 库 中 的 事务 ， 在 每 一 个 事务 处 理 之 后 ， 会 在 栅 
格 里 添加 或 者 删除 一 些 项 集 。 对 于 每 一 个 项 集 v，PhaseI 会 存储 下 面 3 个 参数 : 

Count(v): 自从 v 被 添加 到 严 中 后 ， 包 含 项 集 v 的 事务 的 数量 。 

firstTrans(v): 当 v 被 添加 到 栅 格 时 的 当前 事务 号 。 

maxMissed(v): v 在 添加 到 栅 格 之 前 ， 包 含 项 集 v 的 事务 的 数量 。 

栅 格 的 结构 如 表 5-3 所 示 。 


表 5-3 ” 栅 格 的 结构 示例 


项 集 count firstTrans maxMissed 

i count(i) firstTrans (i1) maxMissed (i1) 
bh count(i,) firstTrans (i,) maxMissed (i,) 
旋 count(i?) firstTrans (i) maxMissed (i) 


图 5.10 说 明了 对 于 某 个 项 集 {a,b} 以 上 3 个 参数 所 代表 的 含义 。 


当前 事务 
遍历 事务 数据 库 


maxMissed ({a,b}) count ({a,b}) 
firstTrans ({a,b}) 


图 5.10 3 个 参数 的 含义 


设 ,b,…, 加 是 事务 数据 库 中 的 n 个 事务 ， 项 集 {a.b} 在 遍历 到 事务 时 被 添加 到 
中 , 当前 读 取 的 事务 是 。 那么 maxMissed({a.b}) 是 ~ 丰 1 的 产 1 个 事务 中 包含 项 集 {a,b} 
的 事务 的 个 数 。firstTrans({a,b}) 就 等 于 j。count({a,b}) 是 #~ 厂 的 (ij+1) 个 事务 中 包含 
项 集 {a,5b} 的 事务 的 个 数 。 

假设 现在 读 取 事务 i, 而 且 已 经 有 了 一 个 上 面 这 样 的 栅 格 。 对 于 栅 格 中 的 任何 项 集 v， 
可 以 得 到 前 i 个 事务 对 项 集 v 的 支持 度 的 下 限 值 count(v)i 和 上 限 值 [maxMissed(v)+ 
count(v)]/i。 分 别称 它们 为 最 小 支持 度 minSupport(v) 和 最 大 支持 度 maxSupport(v)， 即 : 
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最 小 支持 度 minSupport(v)=count(v)/i 
最 大 支持 度 maxSupport(v)=[maxMissed(v)+count(v)]/i 
在 遍历 事务 数据 库 的 过 程 中 ， 每 处 理 一 个 事务 ， 用 户 可 以 自由 地 设 定 一 个 支持 度 阔 
值 。 那么 可 以 得 到 一 个 支持 度 序列 o =(oi,o,,…) ， 其 中 o; 是 处 理 第 i 个 事务 时 设 定 的 支 
持 度 阅 值 。 用 ave,(o) 来 表示 “到 事务 1 为止，o 的 平均 值 ”， 即 ave,(0)=2》0, 。 
pt 


在 CARMA 中 还 定义 了 “到 事务 i 为止 ，o 的 上 限 序列 ”用 |o; | 来 表示 ， 它 是 一 
个 大 于 等 于 o 的 支持 度 序列 ， 包 含 的 元 素 的 数量 和 o 相同 。 

设 o=(o,0,,…,0,)， 当 读 取 到 第 i 个 事务 时 : 

(1) 如 果 a > oj G=12… 天 1)， 即 ai 比 之 前 的 (0 个 支持 度 都 要 大 ， 那 么 | o; | 中 
的 前 i 个 元 素 均 为 o;， 其 他 (m 羽 个 元 素 均 为 0， 即 [ ac |]= (ca,…:0,0) 。 

(2) 如 果 c 并 不 比 之 前 的 (i-1) 个 支持 度 都 要 大 ， 则 将 其 中 比 o; 大 的 保留 ， 比 o; 小 
的 则 用 o; 代替 。 

例如 c=(03070903 , 则 : 6]=(03,0.0,0), 『o;]=(07.0.7,0.0) , [6;]=(09.09,09.0)， 
「c,]=(0.5.07.0.9.0.5)。 

下 面 阐述 Phasel 产生 亚 并 更 新 栅 格 的 具体 过 程 : 

-开始 ，Phasel 令 丰 仅 包含 一 个 元 素 ， 即 空 集 ， 天 1g}， 并 设置 其 count、firstTrans 

和 maxMissed 为 0。 注意， 空 集 是 任意 非 空 项 集 的 子 集 。 

设 算法 已 经 处 理 了 (i-1) 个 事务 ， 现 在 读 取 第 i 个 事务 ft， 它 是 一 个 项 集 。o; 是 当前 
用 户 定义 的 支持 度 冰 值 ， 下 面 的 过 程 包括 3 个 步骤 : 

第 一 步 : 对 于 中 的 每 一 个 项 集 w,， 如 果 v 被 包含 在 右 中 , 则 令 count(v)=count(v)+1。 

第 二 步 : 对 于 刁 的 每 一 个 子 集 v (包括 三 本 身 )， 如 果 v 不 在 下 中 ， 那 么 当 且 仅 当 ， 
的 所 有 子 集 w 已 经 被 包含 在 玉 中 且 满 足 maxSupport()= oa 时 ， 将 添加 到 天 中 ， 并 令 
count(v)=1，firstTrans(v)=i， 然 后 计算 maxMissed(v)， 这 需要 从 两 个 方面 来 进行 : 

(1) 因为 w 是 vv 的 子 集 ， 所 以 maxSupport(w) 二 maxSupport(v)。 又 因为 : 
maxSupport(w)=[maxMissed(w)+count(w)]/i, 
maxSupport(v)=[maxMissed(v)+count(v)]/i, count(v)=1 

所 以 有 : maxMissed(w)+count(w) 宇 maxMissed(v)+1， 即 : 

maxMissed(v)<maxMissed(w)+count(w)—1 

(2) 因为 用 户 可 以 随时 改变 阀 值 ，maxMissed(y) 的 计算 还 依赖 于 当前 的 和 以 前 的 支 

持 度 阔 值 。 对 于 项 集 v， 前 (i-1) 个 事务 对 项 集 v 的 支持 度 满足 不 等 式 : 
support 1,(v) < avg; (| o | D+ = ， 其 中 Iv 表示 v 中 包含 的 项 的 数量 。 


因为 maxMissed(v)=supporti-1(v) X (二 1)， 在 不 等 式 两 边 同 乘 以 (1)， 同 时 由 于 
maxMissed(v) 是 一 个 整数 ， 所 以 有 : 
maxMissed(v)< |c = Davg; (| o |, ) + lv|-1 
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这 里 ，|x | 表示 比 实数 x 小 的 最 大 的 整数 。 
结合 以 上 两 个 方面 ， 计 算 maxMissed(v) 为 : 
min{ (i —D)avg; (el )| +|v|—l1,max Missed(w) + count(w)—1|wCv} 

第 三 步 : 每 处 理 完 个 事务 (k 默认 设置 为 500)， 检 查 VV 中 的 每 一 个 项 集 ， 计 算 
maxSupport=(maxMissed+count)/i, i 是 当前 的 事务 号 。 如 果 maxsupport < o;， 就 将 该 项 集 
从 上 删除 ( o; 是 当前 的 支持 度 阔 值 )。 

下 面 是 一 个 根据 事务 序列 生成 灰 的 例子 。 

设 事务 序列 为 王 (fa,{abc}, 邮 c))， 支 持 度 阔 值 序列 为 c = (0.3.0.9,0.5) 。 首 先 初 
始 化 帮 为 仅 包含 空 集 的 集合 产 {C)}。 

(1) 读 取 如 ={a,b}，a, =0.3。 

第 一 步 , 由 于 gg 是 的 子 集 ( 空 集 是 任意 非 空 项 集 的 子 集 ), 所 以 将 中 的 count( 儿 ) 
加 1。 

第 二 步 ， 对 于 的 子 集 {a}， 由 于 是 {qa} 的 子 集 ， 且 : 

maxSupport( @ )=[maxMissed( @ )+count( @ )]/i=(0+1)/1=1>0.3 

所 以 将 {q} 添 加 到 柱 中 。 同 理 ， 将 {8} 添 加 到 斑 中 。 事 实 上 ，1- 项 集 是 自动 添加 到 
中 的 。 然 后 设置 count({a})=1，firstTrans({a})=1，count({b})=1]，firstTrans({5})=1。 由 
于 如 是 第 一 个 事务 ， 所 以 maxMissed(C)、maxMissed({a}) 和 maxMissed({b}) 均 为 0。 因 
此 处 理 右 后 生成 的 屎 如 表 5-4 所 示 。 


表 5-4 处 理 忆 之 后 的 V 


项 集 count firstTrans maxMissed maxSupport 
Lo 1 1 0 1 
{a} 1 1 0 i 
{D} 1 1 0 l 


(2) 读 取 b={a,b,c}，o, =0.9 。 

第 一 步 ， 将 g@、{a}、{} 的 count 加 1， 因 为 它们 均 被 包含 在 石 中 。 

第 二 步 , 对 于 万 的 子 集 {c}， 由 于 它 是 1- 项 集 ， 所 以 直接 加 入 和 中 , 且 count({c})=1， 
firstTrans({c})=2, maxMissed({c})=0。 可 以 看 出 ，1- 项 集 都 是 在 第 一 次 出 现时 就 被 添加 到 
VV 中 的 ， 因 此 它们 的 maxMissed 总 是 为 0 的。 

对 于 三 的 子 集 {a,b}， 由 于 {a,b} 的 子 集 {a} 和 {2} 都 已 经 是 VV 的 元 素 且 它们 的 
maxSupport 都 是 大 于 o, =0.9 的 ， 所 以 将 fa 好 添加 到 中 ， 并 设置 count({a,8})=1， 
firstTrans( {a,b})=2。 
因为 [|=(0.3,0,0)， 所 以 avg([ oD=0.3, 且 | (2-Davg,( a 有 |+2-1=1。 同时 ， 
对 于 w={q} 和 w={b}，maxMissed(w)+count(w)=2。 所 以 maxMissed({a,b})=1。 

而 对 于 右 的 男 外 两 个 子 集 {a,c} 和 {b,c}, 尽管 它们 的 子 集 都 已 经 是 六 的 元 素 , 但 由 于 
它们 的 子 集 {c} 的 maxSupport({c})=1/2=0.5<o, =0.9 ， 所 以 不 能 将 它们 添加 到 六 中 ,三 
本 身 {a,b,c} 作 为 这 两 个 子 集 的 超 集 当然 也 是 不 频繁 的 。 因 此 处 理 妃 后 生成 的 玉 如 表 5-5 
所 示 。 
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表 5-5 处 理 扎 之 后 的 V 


项 集 count firstTrans maxMissed maxSupport 
[ol 2 1 0 1 

{a} 2 1 0 1 

{D2} 到 1 0 1 

{c} 1 党 0 0.5 

{a,b} 1 pF 1 1 


(3) 读 取 ={b,c}，o; =0.5。 

第 一 步 ， 将 g@、{6b}、{c} 的 count 加 1， 因 为 它们 均 被 包含 在 三 中 。 

第 二 步 ， 对 于 三 本 身 {b,c}， 由 于 {b,c} 的 子 集 {8} 和 {c} 都 已 经 是 六 的 元 素 且 : 

maxSupport({b})=3/3=1>o, =0.5, maxSupport({c})=2/3=0.66> as =0.5 

所 以 ， 可 以 将 {b,c} 添 加 到 亚 中 ， 设 置 count({b,c})=1，firstTrans({b.c})=3。 

因为 [o, |= (0.9,0.9,0) ， 所 以 avg([ ao)=0.9， 且 |(3--Dx0.9|+2-1=2。 同 时 ， 
对 于 {b,c} 的 两 个 子 集 ，maxMissed({bp})+count({D})-1=2。 所 以 maxMissed({b,c})= 
min{2,1}=1。 因 此 处 理 专 后 生成 的 玉 如 表 5-6 所 示 。 


表 5-6 处 理 & 之 后 的 V 


项 集 count firstTrans maxMissed maxSupport 
人 ki 1 0 1 

{a} 2 1 0 2/3=0.66 

{0} 3 1 0 1 

fc 2 2 0 2/3=0.66 
{aD} 1 2 1 2/3=0.66 
{bc} 1 3 1 2/3=0.66 

2. Phasell 算法 


在 得 到 所 有 候选 的 频繁 项 集 之 后 ， 由 PhaseII 算法 来 进行 对 事务 数据 集 的 第 二 次 遍 
历 ， 以 确定 最 终 的 频繁 项 集 。 

PhaseII 算法 的 第 一 步 是 从 中 删除 那些 不 频繁 的 项 集 , 它们 的 支持 度 小 于 支持 度 阔 
值 序列 o=(o,0;,,…,o,) 中 的 最 后 一 个 阅 值 cv 。 

然后 ， 遍 历 事务 数据 库 。 在 处 理 一 个 事务 右 时 ， 检 查 玉 中 的 每 个 项 集 " 并 更 新 栅 格 
中 的 相关 参数 ， 步 骤 如 下 : 

(1) 如 果 firstTrans(v)<i, v 被 打上 确定 标记 (表示 确定 为 频繁 项 集 )。 如 果 玉 所 有 的 
项 集 均 被 打上 确定 标记 ， 则 无 须 再 继续 遍历 数据 库 ，Phasell 算法 即 停止 。 
(2) 如 果 v 出 现在 当前 事务 万 中 ， 更 新 栅 格 中 v 的 相关 参数 : 
DD count(y)= count(v)+1. 
口 maxMissed(v)= maxMissed(v)-1. 
口 如 果 firstTrans(v)=i, 设置 maxMissed(v)=0。. 这 一 设置 可 能 会 使 得 v 的 某 些 超 集 w 

满足 maxSupport(w)>maxSupport(v), 如 果 w 在 信 中 , 则 调整 它 的 maxMissed(w)= 
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count(v) — count(w). 

口 如 果 maxSupport(v)<o,,， 将 vV 从 本 中 删除 。 

和 传统 的 关联 规则 算法 (如 Apriori) 相 比 ，CARMA 算法 是 一 种 在 线 的 关联 规则 算 
法 ， 它 可 以 以 网 络 上 不 断 产 生 的 实时 交易 流 为 数据 源 ， 通 过 一 遍 扫描 ， 最 多 两 遍 来 构造 
满足 给 定 支持 度 的 规则 集 ， 而 且 CARMA 算法 允许 在 扫描 过 程 中 ， 用 户 可 以 对 支持 度 进 
行 修改 。 

在 内 存 的 使 用 上 ，CARMA 算法 比 其 他 关联 规则 算法 更 具 优 势 ， 它 在 执行 过 程 中 需 
要 的 内 存 要 比 其 他 关联 规则 算法 少 很 多 ， 但 是 速度 稍 慢 是 CARMA 算法 的 一 个 缺点 。 


在 Clementine 中 ，CARMA 节点 用 来 执行 CARMA 算法 ， 并 生成 模型 。 

CARMA 节点 对 事务 数据 库 的 格式 有 所 要 求 ， 它 只 能 够 处 理 以 下 两 种 格式 的 数据 : 

(1) 事务 格式 (Transactional Format) 

事务 型 数据 的 每 个 事务 只 包含 一 个 项 。 如 果 一 个 顾客 购买 的 商品 不 止 一 种 ， 那 么 把 
每 一 种 商品 单独 作为 一 个 事务 。 

(2) 表格 式 (Tabular data) 

表格 式 中 的 项 的 取 值 是 一 个 标志 型 数据 ， 用 “T” 和 “F” 来 表示 。 其 中 “T”(Tme) 
表示 项 出 现在 事务 中 ,“F”(False) 表示 项 没有 出 现在 事务 中 。 

图 5.11 中 的 (a) 和 (b) 分 别 显示 了 用 事务 格式 和 表格 式 表 示 的 一 个 数据 库 例 子 。 


Customer Purchase 

1 jam Customer Jam Bread Milk 
2 milk 1 T F F 
3 jam F F 至 
3 bread 3 T 
4 jam 4 T 要 
4 bread 

4 milk 

(b) 
(a) 


5.11 事务 数据 库 的 表示 方法 


本 小 节 对 某 超市 的 交易 数据 进行 关联 分 析 ， 研 究 销售 商品 间 的 关联 关系 ， 目 的 是 为 
超市 货架 的 摆 放 提供 科学 的 依据 ， 对 促销 决策 提供 参考 建议 。 

事务 数据 集 为 Clementine 自 带 的 Basketsln 数据 集 ， 存 放 在 Clementine 安装 目录 下 
的 Demos 文件 夹 中 (..\clementine12.0\Demos\BASKETS1n)， 包 含 了 1000 个 数据 样本 ， 
每 个 样本 包含 了 顾客 的 卡号 、 性 别 、 年 龄 、 收 入 、 付 款 方式 等 一 系列 个 人 信息 ， 以 及 其 
购买 的 各 种 食品 清单 ， 是 一 个 Tabular 格式 的 数据 集 。 

完整 的 数据 流 如 图 5.12 所 示 。 
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殉 -一 


cannedveg 


图 5.12 CARMA 分 析 数 据 流 


1. 生成 模型 


首先 ， 将 “数据 源 ” 中 的 “可 变 文件 ”节点 添加 到 数据 流 区 域 ， 并 将 BASKETSln 
文件 加 载 到 该 节点 。 

向 数据 流 中 添加 “ 表 ” 节 点 ， 并 建立 从 数据 源 节 点 到 “ 表 ” 节 点 的 连接 ， 执 行 “ 表 ” 
节点 ， 即 可 浏览 数据 集中 的 数据 。 

向 数据 流 中 添加 “类 型 ”节点 ， 并 建立 从 BASKETS1n 节点 到 “类 型 ”节点 的 连接 。 
打开 “类 型 ”节点 的 编辑 窗口 ， 直 接 单 击 “ 读 取 值 ”按钮 ， 可 以 自动 选择 各 字段 的 数据 
类 型 ， 如 图 5.13 所 示 。 


IN 辆 好 | > 法 到 入 | 党 除 信 [ 洁 除 所 有 信 
类 型 从 让 


妙 范 转 [10150,109884] 
人 少 范 围 [10.007,49.8863] 
蝎 集 CARD,CASH,CHEQUE 
MiF 
YESINO 
[10200,30000] 
[16,50] 


TF 


freshmeat TF 
dairy TF 
TE 


加 查看 当前 字段 〇 查看 未 使 用 的 字段 设置 
类 型 | 格式 | 注解 


邮 巾 则 同 由 由 由 由 由 同 叫 


: 
: 


5.13 设置 “类 型 ”节点 
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注意 , 这 里 无 须 指 定 各 字段 的 “方向 ”CARMA 节点 会 自动 选择 所 有 的 标志 型 字段 ， 
并 把 “方向 ” 当 作 “两 者 ”( 即 双向 ) 来 处 理 。 非 标志 型 字段 会 被 CARMA 节点 自动 
忽略 。 

向 数据 流 中 添加 建 模 节 点 CARMA 节点 ， 建 立 从 “类 型 ”节点 到 CARMA 节点 的 连 
接 ， 然 后 对 CARMA 节点 进行 设置 ， 在 节点 编辑 窗口 的 “字段 ”标签 下 ， 设 置 如 图 5.14 
所 示 。 


人 〇 使 用 类 型 节点 设置 


口 使 用 事务 处 理 格式 
输入 :|oe fruitveg 
ee freshmeat 
lO® dairy 

lo® cannedveg 


ee cannedmeat 
ee frozenmeal 
lO® beer 

lO® wine 

lO® softdrink 

lo® fish 

ee confectionery 


分 区 : 避 
字段 | 模型 | 专家 | 注解 


Lae][ > 5 | ms | 


图 5.14 选择 建 模 字段 


图 5.14 中 的 各 选项 说 明 如 下 : 

使 用 类 型 节点 设置 (Use Type Node Settings): 使 用 类 型 节点 定义 的 所 有 标志 型 字段 
进行 建 模 。 

使 用 定制 设置 (Use Custom Settings): 用 户 自 己 选择 需要 的 标志 型 字段 进行 建 模 。 
在 本 例 中 ， 有 些 标志 型 字段 是 不 参与 建 模 的， 比如 sex、homeown 等 ， 参 与 建 模 的 字段 
只 包括 商品 字段 。 所 以 ， 这 里 要 选中 “使 用 定制 设置 ” 单 选 按钮 。 

使 用 事务 处 理 格 式 〈Use Transactional Format): 用 来 为 模型 指定 要 处 理 的 数据 格 
式 为 transactional 类 型 ， 系 统 默认 格式 为 tabular。 由 于 本 例 使 用 的 数据 集 为 tabular 类 型 ， 
因此 不 能 选中 该 选项 。 

单 击 对 话 框 右 侧 的 国 按 钮 ， 打 开 “ 选 择 字段 ”对 话 框 ， 从 可 用 的 标志 型 字段 中 选取 
参与 建 模 的 字段 。 可 以 按 住 Shift 键 不 放 并 用 鼠标 选择 连续 的 多 个 字段 ， 也 可 以 按 住 Ctrl 
键 不 放 并 选择 单个 的 不 连续 的 字段 ， 然 后 单 击 “确定 ”按钮 ， 如 图 5.15 所 示 。 

切换 到 编辑 窗口 的 “模型 ”标签 下 ， 可 对 建 模 进行 基本 设置 ， 如 图 5.16 所 示 。 
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仿 选择 字段 加 
排序 方式 : G 自然 〇 名 称 〇 类 型 


图 5.15 选择 参与 建 模 的 字段 图 5.16 CARMA 模型 基本 设置 


图 5.16 中 的 各 选项 说 明 如 下 : 
模型 名 称 《Model Name): 指定 要 产生 的 模型 名 称 。 
口 自动 (Auto): 选择 该 选项 后 , 模型 名 称 将 根据 目标 字段 或 者 后 项 字段 自动 生成 。 

这 是 默认 的 设置 。 
口 自 定义 (Custom): 选择 该 选项 可 以 为 节点 创建 的 模型 指定 用 户 定义 的 模型 名 称 。 
这 里 选择 “ 自 定义 ”， 为 模型 取 名 为 “CARMA”。 
最 小 规则 支持 度 (Minimum Rule Support): 使 用 CARMA 模型 之 前 必须 要 设置 最 
小 规则 支持 度 的 值 ， 系 统 默认 的 是 20%， 这 个 值 的 大 小 直接 关系 到 最 后 生成 的 规则 的 数 
目 。 注 意 ， 在 Apriori 节点 中 设置 的 是 “最 低 条 件 支 持 度 ”， 是 规则 前 项 的 支持 度 。 而 这 
里 设置 的 是 整个 规则 的 支持 度 ， 是 同时 包含 了 规则 前 项 和 规则 后 项 的 支持 度 。 这 里 设置 
鸭 “1502， 

最 小 规则 置信 度 〈Minimum Rule Confidence): 置信 度 定义 为 使 用 指定 的 规则 对 整 
个 训练 集中 包含 该 规则 前 项 部 分 的 样本 预测 其 后 项 的 正确 率 。 系 统 默认 是 20%。 如 果 得 
到 的 规则 太 多 ， 尝 试 提高 该 项 设置 ， 如 果 得 到 的 规则 太 少 (或 者 根本 就 没有 规则 )， 尝 试 
降低 该 项 设置 。 这 里 将 最 低 规则 置信 度 设 置 为 “50.0”。 

最 大 规则 大 小 (Maximum Rule Size): 设置 每 个 规则 中 最 多 能 包含 多 少 个 项 。 当 只 
需要 比较 短 的 规则 时 ， 可 以 通过 减 小 Maximum Rule Size 来 加 速 建 模 。 

以 上 参数 的 设置 对 建 模 的 结果 影响 很 大 ， 在 实际 操作 中 可 以 根据 建 模 的 结果 重新 调 
整 这 些 参数 ， 并 重新 建 模 ， 直 到 得 到 满意 的 结果 。 

切换 到 编辑 窗口 的 “专家 ”标签 下 ， 可 对 建 模 进行 高 级 设置 ， 如 图 5.17 所 示 。 

将 “模式 ”选项 设置 为 “专家 ”， 即 可 进行 高 级 设置 。 

排除 具有 多 个 后 项 的 规则 (Exclude Rules With Multiple Consequents): 如 果 选 中 
该 选项 ， 将 排除 那些 规则 后 项 含有 多 个 项 的 规则 。 例 如 规则 bread 人 cheese 人 fish 二 
wine 八 fruit， 由 于 规则 的 后 项 含有 两 个 项 ， 所 以 这 条 规则 将 被 舍弃 。 
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图 5.17 CARMA 模型 高 级 设置 


设置 修剪 值 (Set Pruning Value): 为 了 节省 内 存 ，CARMA 算法 会 周期 性 剔除 当前 
非 频繁 的 项 集 。 这 就 是 在 CARMA 的 PhaseI 的 第 3 步 中 , 每 处 理 完 上 个 事务 就 检查 V 中 
的 每 一 个 项 集 并 将 非 频 繁 者 删除 .选择 这 个 选项 可 以 设 定 CARMA 执行 这 个 算法 的 周期 ， 
如 果 该 值 设 定 的 比较 小 ， 可 能 可 以 减少 该 算法 所 占用 的 内 存 ， 但 是 可 能 会 增加 建 模 的 时 
间 ; 反之 ， 如 果 该 值 设 定 的 比较 大 ， 那 么 可 能 会 增 大 该 算法 所 占用 的 内 存 ， 但 是 可 以 减 
少 建 模 所 需要 的 时 间 。 系 统 设 定 的 默认 值 为 500。 

改变 支持 (Vary Support): CARMA 允许 在 遍历 事务 数据 库 的 过 程 中 随时 改变 支持 
度 阔 值 。 然 而 ， 在 算法 运行 过 程 中 由 用 户 自行 给 出 各 个 支持 度 阔 值 是 不 现实 的 。 在 
Clementine 的 CARMA 算法 实现 中 ， 允 许 支 持 度 阔 值 取 4 个 值 ， 分 别 记 为 s1、s2、s3、5a。 
初始 值 通常 较 大 ， 然 后 逐渐 减 小 。s1 用 于 处 理 第 1 一 9 个 事务 ，% 用 于 处 理 第 10~99 个 事 
务 ，s3 用 于 处 理 第 100 一 4999 个 事务 ，s4 用 于 处 理 第 4999 个 以 后 的 事务 ， 它 就 是 用 户 在 
“模型 ”标签 下 设置 的 “最 低 规则 支持 度 ”。 根 据 事务 数据 库 中 的 事务 数量 + 的 不 同 ，4 
个 支持 度 闪 值 从 大 到 小 的 下 降 速度 不 同 : 
口 如 果 最 低 规 则 支持 度 s=0.2 或 者 长 19， 则 设置 $1=ss=$3=54。 


口 如 果 19<t<190, 则 设置 $1=582, ss=54=52， 那么 总 的 支持 度 交 值 s= 2 一， 


口 如 果 190 志 1<7000， 则 设置 5$1=5s,，ss=253，s4s=s3， 那 么 总 的 支持 度 阅 值 
> 9s, +90s, +(t—99)s; 
人 
口 如 果 ft>7000， 则 设置 si=5s ，sS=2s3 ，s3=5s4， 那 么 总 的 支持 度 阀 值 
» 95 +90s, +49009 + (1— 4999)s, 
nn 
在 以 上 几 种 情况 中 ， 如 果 根 据 设 置 的 “最 低 规 则 支持 度 ” 计 算 后 使 得 sz>0.5， 那 么 
>sO 


就 将 si 设置 为 05， 其 他 阔 值 也 做 相应 的 调整 ， 从 而 使 得 =3 成 立 ， 其 中 sQ) 是 处 
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第 ;个 事务 时 的 支持 度 阔 值 (是 sj/、s。、s3 或 者 % 中 的 某 一 个 )。 

“改变 支持 ”选项 还 有 一 个 子 选项 “估计 的 交易 数 ”(Estimated Number of 
Transactions)， 也 就 是 事务 数据 库 中 的 事务 数量 ， 通 过 设 定 该 选项 的 值 来 ， 从 以 上 4 种 
情况 中 选择 对 应 的 计算 方法 ， 控 制 阔 值 减 小 的 速度 。 这 里 输入 事务 数量 1000。 

允许 没有 前 项 的 规则 (Allow Rules Without Antecedents): 选择 该 选项 ， 可 以 允许 
规则 集中 出 现 没 有 前 项 的 规则 。 在 某 些 情况 下 ， 这 个 选项 是 很 有 用 的 ， 比 如 ， 如 果 想 知 
道 的 就 是 顾客 最 经 常 购买 的 商品 或 商品 组 合 ， 那 么 选择 该 选项 就 可 以 得 到 想 要 的 结果 。 
系统 默认 不 使 用 该 选项 。 

以 上 选项 设置 完毕 后 ， 单 击 “ 执 行 ”按钮 ， 即 可 在 管理 器 窗口 的 “模型 ”标签 下 生 
成 CARMA 模型 。 


2. 浏览 模型 


对 生成 的 模型 进行 浏览 ， 可 以 看 到 所 有 的 规则 及 其 相关 信息 。 右 击 “ 模 型 ”标签 下 
生成 的 CARMA 模型 ， 在 快捷 菜单 中 选择 “浏览 ”命令 ， 即 可 打开 模型 对 话 框 ， 在 对 话 
框 的 工具 栏 中 单 击 [ 国 村 按钮 并 选择 “显示 全 部 ” 如 图 5.18 所 示 。 


167 17.766 和 2.234 
beer 


mn 170 18.085 2.553 
beer 


ne 173 18.404 。 84: 2.872 
frozenmeal 
beer 293 31.17 13.085 
frozenmeal 302 32.128 13.723 
cannedveg 303 32.234 | 13.83 
beer 293 31.17 13.404 
frozenmeal 302 32.128 | 14.043 
cannedveg 303 32.234 | 14.468 
| confectionery 10 276 29.362 14.043 
eonfectionery wine 11 287 30.532 15.213 


模型 | 汇总 | 注解 


Lasi 


S.18 生成 的 CARMLA 模型 


可 以 看 到 ， 共 生成 了 11 条 规则 。 规 则 的 各 参数 的 含义 与 第 5.2.2 节 中 所 阐述 的 完全 
相同 ， 这 里 不 再 次 述 。 

另外 ， 在 模型 对 话 框 的 “汇总 ”标签 下 ， 可 以 看 到 关于 本 次 建 模 的 信息 概要 。 其 中 
“有 效 事务 数 ” 为 940 (全 部 事务 数 为 1000)。 通 过 对 原始 数据 的 分 析 , 不 难 发 现 , 在 1000 
个 事务 中 ， 有 60 个 事务 所 有 的 输入 变量 值 均 为 “F”， 也 就 是 说 有 60 个 顾客 什么 都 没有 


关联 规则 
买 ， 所 以 CARMA 算法 将 它们 过 滤 掉 了 。 注 意 ，Apriori 算法 没有 这 个 功能 。 
3. 生成 节点 


在 生成 的 CARMA 模型 中 可 以 通过 “生成 ”(Gengerate) 菜单 生成 不 同 的 节点 : 六 
择 节点 〈SelectNode)、 规 则 集 (Rule Set) 以 及 已 过 滤 的 模型 (Filtered Model)， 这 些 节 
点 可 以 被 加 入 到 数据 流 中 以 对 数据 进行 相应 功能 的 处 理 。 

(1) 选择 节点 

选中 某 条 想 要 研究 的 规则 ， 单 击 “ 生 成 ”菜单 的 “选择 节点 ”命令 生成 一 个 选择 节 
点 ， 可 以 将 其 加 入 到 数据 流 中 用 于 筛选 需要 的 记录 ， 其 筛选 的 条 件 就 是 根据 规则 的 前 项 
来 构造 的 。 比 如 选中 图 5.18 中 的 第 一 条 记录 ， 生 成 选择 节点 ， 则 该 节点 可 以 筛选 出 所 有 
购买 了 cannedveg 和 beer 的 记录 ， 如 图 5.19 所 示 。 


图 $.19 生成 的 选择 节点 


在 图 5.19 所 示 窗 口 的 “注解 ”标签 下 ， 可 以 对 该 节点 进行 命名 。 

(2) 规则 集 

单 击 “ 生 成 ”菜单 的 “规则 集 ” 命 令 ， 可 以 指定 一 个 项 〈 目 标 字段 )， 从 规则 集中 将 
那些 规则 后 项 包含 了 目标 字段 的 规则 全 部 提取 出 来 ， 生 成 一 个 规则 集 节 点 。 进 而 将 这 个 
规则 节点 放 入 数据 流 中 对 每 行 记录 是 否 含有 目标 字段 进行 预测 。 

例如 想 研 究 哪些 客户 有 可 能 会 购买 cannedveg。 单 击 “ 生 成 ”菜单 的 “选择 节点 ” 命 
令 ， 打 开 “ 生 成 规则 集 ” 窗 口 ， 做 如 图 5.20 所 示 的 设置 。 


称 : cannedveg 
以 下 位 置 创建 节点 : @ 工作 区 〇 6M 选 项 板 〇 ) 两 者 
目标 字段 : OB cannedveg 划 
低 支持 %: 100 同 
信 度 %: 200 辐 
认 值 : 5 


EE EE 


图 5.20 生成 规则 集 节 点 
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规则 集 名 称 (Rule Set Name): 为 生成 的 规则 集 指 定 一 个 名 称 ， 如 “cannedveg”。 

在 以 下 位 置 创建 节点 (Creat Node On): 指定 生成 的 规则 节点 放置 的 位 置 .“ 工 作 区 ” 
(Canvas) 就 是 放 在 数据 流 区 域 中 ,“GM 选项 板 ” 就 是 放 在 右上 角 的 模型 窗口 内 。 

目标 字段 (Target Field): 这 个 选项 是 十 分 重要 的 ， 它 指明 需要 预测 的 字段 ， 进 而 
根据 这 个 字段 来 从 CARMA 的 规则 集中 提取 出 相应 的 对 这 个 字段 进行 预测 的 规则 。 

最 低 支持 (Minimum Support): 这 个 选项 为 选择 规则 设 定 一 个 阔 值 ， 只 选择 那些 支 
持 度 大 于 设 定 值 的 规则 。 注 意 ， 这 里 的 支持 度 是 指 规则 支持 度 。 

最 低 置信 和 度 《Minimum Confidence): 对 规则 的 置信 度 设 定 一 个 阔 值 ， 只 选择 那些 
置信 度 大 于 设 定 值 的 规则 。 

默认 值 (Default Value): 设 定 一 个 预测 的 默认 值 。 即 规则 节点 判断 某 个 样本 不 是 指 
定 的 目标 字段 值 时 就 预测 为 Default value。 这 里 设 定 为 下 。 

以 上 设置 完成 后 ， 单 击 “ 确 定 ” 按 钮 ， 即 可 在 数据 流 区 域 生 成 cannedveg 节点 。 双 
击 该 节点 ， 打 开 浏 览 窗口 ， 单 击 工具 栏 的 [ 旦 吕 按 钮 ， 并 选择 “完全 展开 所 有 分 支 ” 可 以 
浏览 该 节点 的 详细 设置 ， 如 图 5.21 所 示 。 


合 cannedveg 


日 -名 规则 用 于 T- 包含 3 个 规则 
日 - 规则 1 用 于 T 
如 果 frozenmeal=T 


日 - 规则 2 用 于 T 
如 果 ”frozenmeal=T 
则 

日 - 规则 3 用 于 T 


则 TT 


模型 | 汇总 | 设置 


图 5.21 浏览 规则 集 节点 


可 以 看 到 ， 该 规则 集 包含 了 图 5.18 中 的 3 个 规则 ， 它 们 的 ID 号 分 别 为 2、5、7。 

建立 从 “类 型 ”节点 到 cannedveg 节点 的 连接 ， 并 在 cannedveg 节点 后 添加 “ 表 ” 
节点 ， 执 行 该 “ 表 ” 节 点 ， 可 以 得 到 cannedveg 节点 对 数据 集中 每 个 样本 的 预测 结果 ， 
如 图 5.22 所 示 。 

表 中 最 后 两 列 即 为 该 规则 节点 的 预测 结果 ， 其 中 $A-CARMA 为 预测 的 结果 ，$AC- 
CARMA 为 该 预测 的 置信 度 。 

(3) 已 过 滤 的 模型 

单 击 “ 生 成 ”菜单 的 “已 过 滤 的 模型 ”命令 ， 可 以 生成 一 个 CARMA 模型 ， 该 模 
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型 包含 了 生成 的 CARMA 节点 中 的 全 部 规则 。 


国 表 (20 个 字段 ，1, 000 条 记录 ) #6 


SAC-CARMA 
0.500 
0.500 
0.667, 
0.500 
0.500 
0.500 
0.500 


a | =| 


ol~ 


0.570 
0.573 
0500ls 


可 


| 己 


口 
nn nn 


淋 


图 5.22 ”规则 集 的 预测 结果 


4. 用 模型 对 数据 进行 预测 

CARMA 模型 可 以 直接 放 在 数据 流 中 对 数据 进行 打分 预测 (scoring)。 将 生成 的 
CARMA 模型 拖 入 数据 流 区 域 ， 建 立 从 “类 型 ”节点 到 该 节点 的 连接 ， 双 击 该 节点 ， 在 
“设置 ”标签 下 ， 对 模型 进行 相关 的 参数 设置 ， 如 图 5.23 所 示 。 


图 5.23 设置 关联 规则 模型 


最 大 预测 数 (Maximum Number of Predictions): 该 选项 被 用 来 设 定 对 每 一 行 数据 
所 作 预 测 的 最 大 个 数 ， 因 为 对 于 每 一 个 数据 行 都 可 以 使 用 很 多 规则 对 其 进行 预测 得 出 很 
多 不 同 的 结果 ， 该 选项 可 以 对 所 作 预 测 的 数据 做 限定 ， 使 系统 仅 输出 置信 度 、 支 持 度 或 
者 规则 支持 度 等 最 大 的 前 几 个 结果 ， 该 项 一 般 和 下 面 的 “规则 标准 ”结合 使 用 ， 这 里 设 
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置 为 2。 

规则 标准 (Rule Criterion): 该 选项 选择 将 预测 结果 作 排 序 的 标准 ， 标 准 包 括 : 置 
信 度 、 支 持 度 、 规 则 支持 度 、 提 升 以 及 D 部 署 能 力 ， 这 里 选择 “置信 度 ”。 

人 允许 重复 预测 (Allow Repeat Predictions): 设 定 是 否 人 允许 输出 相同 的 预测 值 ， 因 为 
通常 都 有 很 多 条 规则 的 后 项 是 一 样 的 ， 选 择 该 选项 就 可 以 允许 系统 使 用 多 条 规则 进行 预 
测 ， 并 且 输 出 相同 的 结果 。 

忽略 不 匹配 篮 项 目 〈(Ignore Unmatched Basket Items): 选择 该 项 可 以 在 每 一 行 包含 
的 项 目 比 规则 中 的 前 项 要 多 时 ， 仍 然 可 以 使 用 该 规则 进行 预测 。 

检查 预测 不 在 篮 中 (Check That Predictions Are Not In Basket): 选 定 该 选项 ， 当 一 
个 规则 的 后 项 被 包含 在 数据 行 中 时 ， 则 不 用 该 规则 来 预测 该 数据 行 。 比 如 ， 用 规则 对 数 
据 行进 行 打分 的 目的 是 为 了 给 顾客 推荐 想 买 的 家 具 ， 那 么 如 果 该 名 顾客 已 经 买 了 一 个 餐 
桌 的 话 ， 那 么 他 基本 上 不 可 能 会 再 买 餐桌 了 ， 此 时 如 果 再 给 他 购买 餐桌 的 建议 就 显得 没 
有 意义 了 。 选 定 该 项 可 以 避免 这 种 情况 的 发 生 。 

检查 预测 在 篮 中 〈Check That Predictions Are In Basket): 选择 此 选项 可 确保 规则 
后 项 也 存在 于 数据 行 中 。 

不 检测 篮子 中 是 否 存在 预测 值 (Do Not Check Basket For Predictions): 选择 该 选项 
可 以 在 打分 时 使 用 所 有 的 规则 。 

以 上 设置 完毕 后 ， 在 生成 的 CARMA 模型 节点 后 添加 “ 表 ” 节 点 ， 建 立 连 接 并 执行 
之 ， 所 得 结果 如 图 5.24 所 示 。 


国文 件 器 癌 编辑 所 卫生 成 @) @ 


lionery BA-CARMA-1 BAC-CARMA-1 $A-Rule_ID-1| $A-CARMA-2 BAC-CARMA-2 $A-Rule_ID-2 
1 wine 0.522 10 $nulls Snulls $nulls| a 
由 wine 0.522 10 $null$ $null$ $null$| 受 
3 Snulls Snulls Snulls Snulls Snulls Snulls 
4 confectionery 0.502 11 $null$ $null$ $null$ 
5 Snulls Snulls Snulls Snulls $null$ $null$ 
6 confectionery 0.502 11 $null$ S$null$ Fnulls. 
[3 Snulls Snull$ Snulls Snulls Snulls Snulls 
8 frozenmeal 0.580 4cannedveg 0.570 了 
9 cannedveg 0.573 5beer 0.563 8 
10 $null$ $null$ $null$ $nulls $null$ $null$ 
11 frozenmeal 0.571 6 beer 0.551 9 
12 Snulls Snulls $null$ $nulls $null$ $null$ 
13 cannedveg 0.573 5 beer 0.563 8 
14 Snulls Snulls $null$ $nulls $null$ $null$ 
15 $nulls Snulls Snull$ Snulls $null$ $null$ 
16 | Sn Ta 
4 BE » 
表 | 注解 


图 5.24 ”模型 的 预测 结果 


可 以 看 到 ， 在 表 的 最 后 显示 了 6 列 数据 ， 这 就 是 预测 结果 的 置信 度 最 高 的 两 条 规则 
所 预测 的 结果 。 其 中 $SA-CARMA 是 预测 值 ，SAC-CARMA 是 置信 度 ，$A-Rule ID 是 预 


关联 规则 
测 时 所 使 用 的 规则 的 ID 号 。 


《4 序列 模式 


就 购物 复数 据 而 言 ， 前 面 的 Apriori 算法 和 CAMAR 算法 用 于 发 现 客户 在 购物 时 商 
品 之 间 的 关联 关系 。 序 列 模式 挖掘 要 发 现 的 是 事件 在 发 生 过 程 中 的 先后 顺序 上 的 规律 ， 
例如 客户 在 多 次 购物 活动 中 购买 商品 的 顺序 模式 。 Rakesh Agrawal 在 提出 序列 的 概念 时 ， 
举 了 一 个 形象 的 例子 。 比 如 一 个 顾客 在 租借 影碟 时 ， 先 租借 “星球 大 战 ”， 然 后 是 “帝国 
反击 战 ” 最 后 是 “ 杰 达 武士 归来 ”(3 部 影片 是 以 故事 发 生 的 时 间 先 后 而 情节 连续 的 )。 
不 管 顾客 在 任意 两 部 影片 之 间 是 否 还 租借 了 其 他 影片 ， 就 这 3 部 影片 来 说 ， 顾 客 在 租借 
时 是 有 先后 顺序 的 , 即 在 租借 了 前 两 部 影片 之 后 , 他 租借 第 3 部 影片 的 概率 是 比较 高 的 。 
这 就 是 一 个 顾客 在 租借 影片 时 的 序列 模式 。 序 列 模式 挖掘 正 是 要 找到 这 样 的 规律 。 


给 定 一 个 客户 交易 事务 数据 库 D， 其 中 的 每 一 个 事务 由 这 样 的 属性 字段 组 成 :顾客 
ID、 交 易 时 间 ， 以 及 每 次 交易 时 间 所 购买 的 商品 ， 如 表 5-7 所 示 。 
表 5-7 客户 交易 事务 数据 库 D 


顾客 ID Time1 Time2 Time3 Time4 
h cheese , crackers wine beer 

2 wine beer cheese 

3 bread wine cheese , beer 

4 crackers wine beer cheese 
入 beer cheese , crackers bread 

6 crackers bread 


一 个 顾客 在 某 个 时 间 点 最 多 只 有 一 次 购物 行为 ， 或 者 没有 购物 行为 (在 表 5-7 中 用 
“-” 来 表示 )。 比 如 某 个 顾客 在 购买 了 啤酒 和 面包 之 后 ， 刚 刚 走出 超市 ， 又 想起 来 没有 买 
牛奶 ， 于 是 他 又 返回 超市 购买 了 牛奶 ， 那 么 这 两 次 购物 行为 应 该 作为 一 次 来 对 待 。 

每 一 种 商品 就 是 一 个 项 目 〈item， 简 称 “项 ”7， 因 此 一 个 顾客 的 一 次 购物 行为 就 产 
生 了 一 个 项 集 ， 它 是 一 个 非 空 的 集合 。 例 如 顾客 1 在 Timel、Time2 和 Time3 分 别 进行 
了 一 次 购物 行为 ， 产 生 了 3 个 项 集 { cheese , crackers } 、{wine}、{beer} 。 

序列 ， 就 是 一 个 或 多 个 项 集 有 序 地 排列 后 组 成 的 列表 。 例 如 ， 顾 客 6 产生 了 这 样 一 
个 序列 : [{crackers} > {bread}]。 符 号 “>” 代 表 了 一 种 顺序 ， 表 示 其 左边 的 项 集 产生 之 
后 才 产 生 了 其 右边 的 项 集 。 用 [s1>s2>…>sn] 来 表示 序列 S$， 其 中 sj 代表 一 个 项 集 。 序 列 
中 包含 的 项 集 的 数量 称 为 该 序列 的 长 度 (length) 。 例 如 [{crackers} > {bread}] 的 长 度 为 2。 
长 度 为 的 序列 称 为 “Fk 序列 ”。 

对 于 序列 4=[a1>a2>*…>an] 和 序列 B=[b1>b2>…>bm]， 如 果 存 在 一 组 整数 五 <P<… 
<i， 使 得 a Cb ，a, Cb,，…，4a, Cb, 成 立 ， 则 称 序列 4 包含 于 序列 8。 例如， 序列 
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[{cheese }>{wine}>{beer}] 包 含 于 [{bread, cheese}>{wine, crackers }>{cheese}>{beer}], 这 
是 因为 ，{cheese } C {bread, cheese},， {wine} C {wine, crackers}, {beer} C {beer}。 

在 一 个 序列 集中 ， 如 果 某 个 序列 s 不 包含 于 任何 其 他 序列 中 ， 则 称 s 是 “ 极 大 序列 ” 
(Maximal Sequence )。 

将 一 个 顾客 每 次 购物 产生 的 项 集 按照 时 间 顺 序 排列 ， 就 形成 了 该 顾客 的 事务 序列 。 
对 于 一 个 序列 s， 如 果 s 包含 于 顾客 C 的 事务 序列 ， 就 称 “ 顾 客 C 支持 序列 s”。 那么， 
支持 序列 s 的 顾客 数量 除 以 顾客 总 数量 ， 就 是 序列 s 的 支持 度 。 

例如 序列 [{crackers} > {wine} > {beer}]， 在 6 个 顾客 中 ， 顾 客 1 和 顾客 4 支持 该 序 
列 ， 所 以 其 支持 度 为 2/6=33.3%。 

在 进行 数据 挖掘 时 ， 由 用 户 指定 一 个 最 小 支持 度 阔 值 。 把 那些 支持 度 大 于 等 于 这 个 
闵 值 的 序列 称 为 “频繁 序列 ”。 长 度 为 的 频繁 序列 记 做 “频繁 左 序 列 ”。 

给 定 一 个 事务 数据 库 D， 那 么 序列 模式 挖 抉 就 是 要 从 数据 中 找 出 所 有 的 频繁 序列 ， 
并 从 中 取出 那些 极 大 序列 ， 每 一 个 这 样 的 序列 都 代表 了 一 个 序列 模式 。 

一 个 序列 模式 由 两 个 部 分 组 成 ， 即 前 件 序列 (Antecedent Sequence) 和 后 件 序列 
(Consequent Sequence)。 对 于 一 个 极 大 频繁 序列 S=[s1>s2>…>ss]， 序 列 [s1>s2>*…>sn1] 
构成 了 序列 模式 的 前 件 ，[ss] 就 是 序列 模式 的 后 件 ， 可 以 表示 为 : 

If [s1>s2>*…>sn 1] then [sn]， 或 者 [s1>s2>…>sn1=> sn] 

例如 ， 给 定 最 小 支持 度 阔 值 为 20%， 序 列 [{crackers} > {wine} > {beer}] 是 从 表 5-7 
中 挖掘 出 来 的 极 大 频繁 序列 ， 因 为 该 序列 的 支持 度 大 于 20% 且 不 包含 于 其 他 频繁 序列 。 
然而 序列 [{crackers} >{wine}] 虽 然 也 是 频繁 的 ， 但 却 不 是 极 大 的 。 对 于 序列 [{crackers} > 
{wine} > {beer}]， 可 以 生成 一 个 序列 模式 [{crackers} > {wine} => {beer}]， 表 示 “ 顾 客 如 
果 先 购买 了 crackers, 然后 又 购买 了 wine, 那么 他 将 很 可 能 在 未 来 的 某 个 时 刻 购买 beer”。 

一 个 序列 模式 的 置信 和 度 ， 是 指 同时 支持 序列 前 件 和 后 件 的 顾客 数量 除 以 支持 序列 前 
件 的 顾客 数量 所 得 到 的 比值 。 


I 


1. 序列 模式 挖掘 算法 介绍 


目前 的 序列 模式 挖掘 算法 大 多 都 是 Apriori 类 算法 的 改进 ， 如 AprioriAll、 
AprioriSome 和 GSP 算法 等 。 

AprioriAll 算法 与 Apriori 类 似 , 首先 遍历 数据 库 生 产 候选 序列 并 利用 Apriori 的 特性 
进行 剪 枝 来 得 到 频繁 序列 。 每 次 遍历 时 通过 连接 上 一 次 得 到 的 频繁 序列 来 生成 新 的 长 度 
加 1 的 候选 序列 。 然 后 对 每 个 候选 序列 进行 扫描 ， 按 照 最 小 支持 度 来 确定 哪些 序列 是 频 
繁 序 列 。AprioriAll 算法 的 不 足 在 于 容易 生成 数量 庞大 的 候选 序列 , 同时 还 需要 多 次 扫描 
数据 库 。 

AprioriSome 与 AprioriAll 只 是 在 序列 阶段 有 所 不 同 ，AprioriAll 是 首先 生成 所 有 的 
频繁 序列 ， 然 后 在 极 大 序列 阶段 删除 那些 非 极 大 的 序列 。AprioriSome 将 序列 分 成 两 个 部 
分 分 别 计数 ， 前 半 部 分 只 对 一 定 长 度 的 序列 计数 ， 后 半 部 分 跳 过 已 经 计数 的 序列 。 在 实 


际 过 程 中 两 个 部 分 是 混合 在 一 起 的 ， 以 减少 候选 序列 占用 的 资源 。 

GSP 算法 是 AprioriAll 的 扩展 算法 , 其 算法 的 执行 过 程 和 AprioriAll 类 似 , 最 大 的 不 
同 就 在 于 GSP 引入 了 时 间 约 束 、 滑 动 窗 口 和 分 类 层次 技术 ， 增 加 了 扫描 的 约束 条 件 ， 有 
效 地 减少 了 需要 扫描 的 候选 序列 的 数量 ， 同 时 还 克服 了 基本 序列 模型 的 局 限 性 ， 更 切合 
实际 ， 减 少 多 余 的 无 用 模式 的 产生 。 另 外 GSP 利 


扫描 的 序列 数量 。 
2. AprioriAll 算法 


在 Rakesh Agrawal 关于 序列 模式 挖掘 的 论述 中 ， 将 序列 模式 挖掘 的 一 般 步 又 分 为 5 
个 阶段 ， 即 排序 阶段 、 频 繁 项 集 阶 段 、 转 换 阶 段 、 序 列 阶段 和 选 极 大 序列 阶段 。 


(1) 排序 阶段 


在 排序 阶段 对 数据 库 中 的 记录 进行 排序 ， 以 顾客 ID 为 主键 、 购 物 时 间 为 次 键 进行 
升序 排列 。 这 样 排 序 之 后 ， 对 于 单个 的 顾客 来 说 ， 实 际 上 得 到 了 每 个 顾客 的 购物 序列 ， 


称 为 顾客 序列 (Customer Sequnence )。 


例如 对 表 5-8 所 示 的 顾客 购物 数据 库 D 进行 排序 之 后 得 到 表 5-9。 


购物 时 间 Transaction Time 
June 10'93 
June 12'93 
June 15 '93 
June 20'93 
June 25 '93 
June 25 '93 
June 25 '93 
June 30'93 
June 30 '93 
July 25 '93 


购物 时 间 Transaction Time 
June 25 '93 
June 30'93 
June 10'93 
June 15 '93 
June 20 '93 
June 25 '93 
June 25 '93 
June 30'93 
July 25 '93 
June 12 '93 


表 5-8 原始 数据 库 D 
顾客 ID Customer Id 


人 bw 


表 5-9 排序 之 后 的 数据 库 


顾客 ID Customer ld 


mm 上 mb 一 


哈 希 树 来 存储 候选 序列 ， 减 小 了 需要 


关联 规则 


所 购 商品 代码 ltems Bought 
10, 20 

90 

30 

40, 60, 70 

30 

30, 50, 70 

30 


所 购 商品 代码 ltems Bought 
30 

90 

10, 20 

30 

40, 60, 70 
30, 50, 70 
30 

40, 70 

90 

90 
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进而 可 得 到 顾客 序列 数据 库 〈 如 表 5-10 所 示 )。 
表 5-10 顾客 序列 数据 库 


Customer Id Customer Sequence 

1 [{30},{90}] 

2 [{10,20},{30},{40,60,70}] 
3 [{30, 50, 70}] 

4 [{30},{40,70},{90}] 

5 [{90}] 


(2) 频繁 项 集 阶段 

设 定 支 持 度 阔 值 后 ， 在 频繁 项 集 阶 段 要 找到 所 有 频繁 项 集 组 成 的 集合 工 。 同 时 也 得 
到 了 所 有 的 频繁 1- 序 列 ， 因 为 每 个 频繁 1- 序 列 实际 上 就 是 由 一 个 频繁 项 集 构成 的 。 

为 了 便于 数据 处 理 ， 通 常 将 所 有 的 频繁 项 集 映 射 到 一 些 连续 的 整数 上 。 例 如 这 里 找 
到 的 频繁 项 集 为 {30}、{40}、{70}、{40,70}、{90}， 那 么 可 以 如 表 5-11 所 示 来 映射 这 些 
频繁 项 集 。 


表 5-11 ”频繁 项 集 映射 为 整数 
频繁 项 集 映射 整数 
{30} 
{40} 
{70} 
{40,70} 
{90} 


mm mb 一 


(3) 转换 阶段 

在 这 一 阶段 ， 要 在 前 两 个 阶段 的 基础 上 对 顾客 序列 做 进一步 的 转换 。 由 于 在 寻找 频 
繁 序列 的 过 程 中 要 不 断 检 测 一 个 给 定 的 序列 是 否 被 包含 在 一 个 顾客 序列 中 〈 即 检测 一 个 
顾客 是 否 支持 给 定 的 序列 )， 本 阶段 的 转换 将 提高 这 一 检测 的 速度 。 

转换 的 过 程 是 这 样 的 ; 对 于 顾客 序列 数据 库 中 的 每 个 序列 +( 即 每 个 记录 )， 用 该 序 
列 所 包含 的 所 有 频繁 项 集 来 代替 。 如 果 序列 上 中 有 某 个 项 集 *，s 的 全 部 子 集 都 不 是 频繁 
项 集 ， 那 么 s 将 被 从 序列 上 中 剔除 ; 如 果 序列 上 中 不 包含 任何 频繁 项 集 ， 那 么 在 转换 之 后 
它 将 不 被 保留 。 但 在 计算 顾客 总 数 时 ， 它 仍 将 被 计算 在 内 。 转 换 之 后 得 到 的 数据 库 记 
做 Dr。 

例如 表 5-10 在 被 转换 后 得 到 的 Dr 如 表 5-12 所 示 。 


表 5-12 转换 后 的 序列 数据 库 Dr 
ld Original Customer Sequence Transformed Customer Sequence After Mapping 


1  [{30},{90}] [{30},{90}] [1,5] 

2 [{10,20},{30},{40,60,70}] [{30},{{40},{70},{40,70}}] [1,(2,3,4)] 

3  [{30,50,70}] [{30, 70}] [Q, 3)] 

4 [{30},{40,70},{90}] [{30},{{40},£70},{40,70}},{90}] [1,(2,3,4),5] 
5 ___[{90}] [oj [5] 


关联 规则 


例如 Id 号 为 2 的 顾客 序列 在 进行 转换 时 ， 项 集 {10.20} 由 于 子 集 都 不 是 频繁 项 集 而 
被 从 序列 中 剔除 。 项 集 {40.60.70} 则 被 其 所 包含 频繁 项 集 {{40},{170}.{40.70}} 所 取代 。 
(4) 序列 阶段 
在 转换 后 的 序列 数据 库 的 基础 上 ， 本 阶段 利用 频繁 序列 挖掘 算法 寻找 频繁 序列 。 
AprioriAll 算法 描述 如 下 : 
输入 : 频繁 1- 序 列 ， 顾 客 序列 数据 库 Dr 
输出 : 极 大 序列 集 
算法 : 
Li={ 频 繁 1- 序 列 }; 
for (f=2; Lez 2; kt+) do 
{Cx=aprioriall-generate(Lk1); 。 // 根 据 频繁 (k_1)- 序 列 产 生 候选 上 序列 
for (Dr 中 的 每 个 序列 c) do 
对 Ck 中 凡是 被 c 包含 的 候选 者 ， 其 计数 加 1; /计算 支持 计数 
ZECt 中 所 有 满足 最 小 支持 度 的 候选 者 ; } 
Answer= 在 [外 到 中 的 极 大 序列 
函数 aprioriall-generate(Lk 1) 的 定义 : 
参数 ， 频 繁 (1)- 序 列 集 Za 
返回 值 : 候选 大 序列 集 Ck 
功能 :对 Ze 进行 自 连接 ， 然 后 剪 梳 
function aprioriall-generate(L 1) 
{insert into Cx 
select p.litemseti, p.litemset>,***, p.litemsetr 1, q.litemsetx 1 
from Lriasp, Lreiasg //litemset 表示 频繁 项 集 
where p.litemseti = gq.litemset,,*…, p.litemsetx 2 = q.litemsetx 2; /连接 
for (Ck 中 的 每 个 序列 c ) do 
{for (c 的 每 个 (上 1D) 子 序列 s) do 
ifseZkaithen 
deletes from Cr:} ”// 剪 枝 , 其 原理 是 : 如 果 一 个 序列 的 任 一 子 序 
// 列 不 频繁 ， 则 这 个 序列 也 不 频繁 
(5) 选 极 大 序列 阶段 
根据 上 一 阶段 得 到 的 结果 ， 从 频繁 序列 中 筛选 出 极 大 序列 。 
令 频 繁 序列 集 为 S$，5 中 的 序列 长 度 的 最 大 值 为 mw， 那 么 下 面 这 个 算法 可 以 用 来 筛选 
出 全 部 极 大 序列 ， 
for (大 = 及 大 > 1 有 一) do 
{for S 中 的 每 个 大 序列 % do 
从 S 中 删除 % 的 所 有 子 序 列 ，} 
下 面 利用 上 述 原理 来 对 表 5-12 中 映射 后 的 顾客 序列 进行 频繁 序列 挖掘 。 设 支 持 度 阅 
值 为 40%， 即 5 个 顾客 中 至 少 有 两 个 顾客 支持 的 序列 为 频繁 序列 〈 支 持 计数 为 2)。 首 先 
根据 频繁 1- 项 集 生成 频繁 1- 序 列 ， 然 后 通过 若干 次 连接 和 剪 枝 ， 得 到 所 有 频繁 序列 ， 整 
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个 过 程 如 图 5.25 所 示 。 


序列 | 计数 [123] [12.4] 
[1] 4 连接 [1,2] [1,3] [1,4] [1,5] le [1,2,5] [1,3,2] 
四 | 2 DD [23] DJ [2,5] | 前 枝 | 序列 | 计数 | 连接 | [13.4] [13,5] 
B] | 3 B.] [3.2] [3,4] [3,5] [2 | 2 ~| [1,4,2] [1,4,3] 
下 | 2 
[4] 2 [4,1] [4,2] [4,3] [4,5] 和 2 [1,4,5] [1,5,2] 
[5] 人 [5,1] [5,2] [5,3] [5,4] [1,5] 2 [1,5,3] [1,5,4] 
频繁 1- 序 列 工 候选 2- 序 列 Cs 频繁 2- 序 列 工 ， 候选 3- 序列 Cs 


图 5.25 ”频繁 序列 挖掘 示例 


其 中 ， 候 选 3- 序 列 Cs 中 的 所 有 序列 的 支持 计数 均 为 0， 算法 停止 。 

注意 , 在 剪 枝 步骤 中 包括 两 个 内 容 。 其 一 是 将 候选 集中 支持 度 小 于 阔 值 的 序列 删除 ， 
在 计算 一 个 序列 的 支持 度 时 ， 一 定 要 注意 “包含 ”的 定义 。 当 一 个 候选 序列 被 事务 序列 
所 包含 时 ， 其 支持 计数 才 加 1。 例 如 序列 [1,3] 被 [1，(2,3,4)] 包 含 ， 但 不 被 [(1,3)] 包 含 。 其 
二 是 将 子 序列 不 频繁 的 序列 删除 。 

到 此 为 止 ， 所 有 的 频繁 序列 已 经 找到 ， 即 工 = 工 UI 。 然 后 从 中 找 出 极 大 序列 。 将 
长 度 较 大 的 序列 的 所 有 子 序列 从 工 中 删除 ， 这 里 将 [1 、[2]、[3]、[4]、[5] 删 除 ， 最 后 得 
到 的 极 大 频繁 序列 有 [1,2]、[1,3]、[1,4]、[1,5]。 根 据 表 5-11， 将 整数 映射 回 所 代表 的 商 
品 代 码 ， 最 终 得 到 的 序列 模式 为 : 

[30>{140 [£30}>{70H]; [£30}>{40, 70}]; 。 [{30}>{90}] 


在 Clementine 中 有 一 个 “序列 ”节点 (Sequence Node) 用 于 序列 模式 的 建 模 ， 它 基 
于 CARMA 关联 规则 算法 ， 该 算法 使 用 一 个 有 效 的 两 次 传递 方法 查找 序列 。 

在 利用 “序列 ”节点 创建 序列 模式 集 时 ， 需 要 指定 一 个 ID 字段 和 一 个 可 选 的 时 间 
字段 ， 以 及 一 个 或 多 个 内 容 字段 。 这 些 设 置 必须 在 建 模 节 点 的 “字段 ”选项 卡 上 进行 ， 
不 能 从 上 游 类 型 节点 中 读 取 。 该 ID 字段 可 以 是 任意 方向 或 任意 类 型 .如果 指定 时 间 字 段 ， 
则 该 字段 可 以 是 任意 方向 ， 但 必须 是 数字 、 日 期 、 时 间或 时 间 戳 。 如 果 不 指 定时 间 字 段 ， 
序列 节点 则 会 使 用 隐 含 的 时 间 惟 ， 实 际 上 是 使 用 行 号 作为 时 间 值 。 内 容 字 段 可 以 是 任意 
类 型 和 任意 方向 ， 但 是 所 有 内 容 字段 必须 是 相同 的 类 型 。 如 果 这 些 字段 是 数字 型 的 ， 则 
必须 为 整数 范围 (不 是 实数 范围 )。 

这 里 ， 对 某 超 市 的 顾客 购物 事务 数据 库 进 行 分 析 以 提取 序列 模式 。 从 事务 数据 库 中 
随机 抽取 10 个 顾客 , 每 个 顾客 都 有 多 次 购物 记录 ,组 成 训练 数据 集 ， 共 67 个 训练 样本 ， 
存放 在 sequence.xls 文件 中 。 样 本 属性 包括 顾客 ID、 购 物 时 间 以 及 商品 名 称 ， 其 中 购物 
时 间 已 经 做 了 数值 化 处 理 ， 如 表 5-13 所 示 。 其 中 ,“T” 表 示 购 买 了 某 商品 ,“F” 表 示 未 
购买 某 商品 。 


关联 规则 


表 5-13 事务 数据 库 

ID Time pasta milk water biscuits Coffee brioches yoghurt 
1 1 T 下 F 于 F F 下 
1 及 PF T 秆 F F F F 
1 E Ly F F F F 显 
1 6 F F F 定 F T F 
1 注 F F F F F F F 
1 8 F F F F 置 下 F 
1 9 下 下 ¥ 工 了 Fr F 
1 10 时 F 到 下 F F 
2 1 下 要 和 工 F 3 F 
10 6 下 下 F F F 和 F 

1 构建 模型 

数据 流 如 图 5.26 所 示 。 

sequence.xls 1D 


图 5.26 序列 建 模 数据 流 


首先 在 数据 流 区 域 添加 Excel 数据 源 节点 


， 并 将 sequence xls 加 载 到 数据 源 节点 。 然 


后 添加 “ 表 ” 节 点 ， 可 以 浏览 数据 集中 的 数据 。 
将 “序列 ”节点 添加 到 数据 流 中 ,建立 由 数据 源 节点 到 序列 节点 的 连接 ， 然 后 对 “ 序 


列 ” 节 点 进行 设置 ， 如 图 5.27 所 示 。 
在 “序列 ”节点 的 编辑 窗口 中 的 “字段 ” 


标签 下 ， 首 先 对 “ID 字段 ”进行 设置 。ID 


字段 的 每 个 唯一 值 都 应 该 表明 一 个 特定 的 分 析 单 元 。 例 如 ， 在 市 场 购物 篮 的 应 用 中 ， 每 
个 卫 可 能 表示 一 个 客户 。 对 于 Web 日 志 分 析 应 用 ,每 个 ID 可 能 代表 一 个 计算 机 (以 他 
地 址 表示 ) 或 一 个 用 户 《〈 以 登录 数据 表示 )。 这 里 ， 从 右 侧 的 下 拉 框 中 选择 ID 即 可 。 


如 果 在 数据 中 使 用 字段 来 表明 事件 时 间 ， 


要 选择 “使 用 时 间 字 段 ” 并 指定 要 使 用 的 


字段 。 时 间 字 段 必须 是 数字 、 日 期 、 时 间或 时 间 惟 型 的 。 如 果 不 指 定时 间 字 段 ， 则 假设 
记录 按照 从 数据 源 出 发 的 顺序 到 达 ， 记 录 号 将 用 做 时 间 值 〈 第 一 个 记录 发 生 在 时 间 “1”; 


第 二 个 记录 发 生 在 时 间 “2”， 以 此 类 推 )。 这 是 


且 ， 选 中 “使 用 时 间 字 上段” 复 选 框 ， 然 后 从 


数据 挖掘 算法 与 Clementine 实践 
右 侧 的 下 拉 框 中 选择 Time 字段 。 


Zo 
ID 为 连续 


Time 


lo® pasta 

ee milk 

om water 

lo® biscuits 

om coffee 

om brioches 

ee yoghurt 

ee frozen vegetables 
lO®@ tunny 

os beer 


模型 | 专家 | 注解 


12 


图 5.27 设置 序列 节点 的 字段 属性 


内 容 字段 是 参与 建 模 的 字段 ， 这 些 字段 包含 与 序列 建 模 有 关 的 事件 。 单 击 右 侧 的 国 
按钮 ， 弹 出 “选择 字段 ”对 话 框 ， 从 中 选择 内 容 字段 。 在 选择 时 ， 按 住 Shift 键 不 放 可 以 
同时 选择 多 个 连续 的 字段 ， 按 住 Ctrl 键 不 放 可 以 同时 选择 多 个 不 连续 的 字段 。 这 里 ， 选 
中 全 部 字段 。 

切换 到 “模型 ”标签 下 ， 如 图 5.28 所 示 。 


名 称 回 自动 〇 自 定 义 
v] 使 用 分 区 数据 
小 规则 支持 度 (%}:| 。 30.0 上 完 吾 规则 ) 
小 规则 置信 度 (%): 500 辣 
大 小 : 10 辣 
型 流 的 预 训 : 3 同 


字段 | 模型 | 专家 | 注解 


Cus)» ww | 到 


图 5.28 ” 建 模 基本 设置 


关联 规则 


在 这 里 可 以 对 节点 进行 一 些 基本 的 设置 ， 包 括 : 

最 小 规则 支持 度 (Minimum Rule Support) (%): 指 的 是 训练 数据 中 包含 整个 序列 
的 ID 的 比例 。 这 里 设置 为 30%。 

最 小 规则 置信 度 (Minimum Rule Confidence) (%): 指 的 是 得 到 正确 预测 的 ID 在 
所 有 使 用 规则 进行 预测 的 ID 中 所 占 的 百分比 。 基 于 训练 数据 ,该 百分比 的 计算 如 下 : 包 
含 整个 序列 的 ID 数量 除 以 其 中 包含 条 件 的 ID 数量 。 置 信 度 低 于 指定 标准 的 序列 将 被 放 
弃 。 这 里 设置 为 50%。 

最 大 序列 大 小 (Maximum Sequence Size): 设置 序列 中 不 同 项 集 的 最 大 数量 。 如 果 
相关 序列 相对 较 短 ， 则 可 以 降低 此 设置 ， 以 加 快 序列 集 构 建 速度 。 这 里 设置 为 10。 

要 添加 到 流 的 预测 (Predictions To Add To Stream): 指定 生成 的 结果 模型 节点 要 添 
加 到 流 中 的 预测 数量 。 这 是 指 在 将 来 用 生成 的 序列 模式 节点 来 预测 某 个 测试 样本 时 显示 
多 少 个 置信 度 最 高 的 预测 值 。 这 里 设置 为 3。 

切换 到 “专家 ”标签 下 ， 如 图 5.29 所 示 。 


图 5.29 建 模 高 级 设置 


将 “模式 ”选项 设置 为 “专家 ”， 可 以 进行 如 下 高 级 设置 : 

设置 最 长 持续 时 间 (Set Maximum Duration): 如 果 选 择 了 此 选项 ， 序 列 将 被 限制 
为 小 于 或 等 于 指定 值 的 一 个 持续 时 间 (第 一 个 项 集 和 最 后 一 个 项 集 之 间 的 时 间 )。 例如 对 
于 购物 篮 数 据 ， 对 每 个 顾客 而 言 ， 只 选取 其 在 所 限制 时 间 段 里 的 事务 。 如 果 没 有 指定 时 
间 字 段 ， 该 持续 时 间 则 以 原始 数据 中 的 行 数 〈 记 录 数 ) 表示 。 如 果 使 用 的 时 间 字 段 为 时 
间 、 日 期 或 时 间 惟 型 字段 ， 该 持续 时 间 则 表示 为 秒 数 。 对 于 数值 字段 ， 持 续 时 间 则 使 用 
与 字段 相同 的 单位 数 表 示 。 

设置 修剪 值 (Set Pruning Value): 为 了 节省 内 存 ， 序 列 节点 中 使 用 的 CARMA 算 
法 会 在 处 理 期 间 定期 从 其 潜在 项 目 集合 列表 中 删除 〈 修 剪 ) 不 常 使 用 的 项 集 。 选 择 此 选 
项 可 调整 修剪 的 频率 。 指 定 的 数字 决定 了 修剪 频率 。 输 入 较 小 的 值 可 降低 该 算法 的 内 存 
要 求 (但 可 能 会 延长 所 需 的 训练 时 间 ), 输入 较 大 的 值 会 加 快 训练 速度 (但 可 能 会 提高 内 
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存 要 求 )。 

设置 内 存 中 的 最 大 序列 数 (Set Maximum Sequences In Memory): 如 果 选 择 了 此 选 
项 , CARMA 算法 则 会 将 建 模 期 间 备 选 序列 的 内 存 限 制 为 指定 的 序列 数 。 如果 Clementine 
在 序列 建 模 期 间 使 用 的 内 存 过 多 ， 应 选择 此 选项 。 此 数字 应 该 比 最 终 模型 中 预期 的 序列 
数 大 很 多 。 

抑制 项 目 集 之 间 的 间距 (Constrain Gaps Between Item Sets): 通过 此 选项 可 以 针对 
不 同 项 集 的 时 间 间 距 指 定 约束 。 如 果 选 择 了 此 选项 ， 则 不 会 考虑 时 间 间 距 小 于 所 指定 的 
“最 小 间距 ”或 大 于 “最 大 间距 ”的 项 目 集合 作为 序列 的 组 成 部 分 。 使 用 此 选项 可 避免 考 
虑 包括 较 长 时 间 区 间或 者 在 很 短 的 时 间 跨 度 内 发 生 的 那些 序列 。 对 于 购物 篮 数据 ， 这 里 
的 间距 是 指 某 个 顾客 的 某 两 次 购物 在 时 间 上 的 差 。 

以 上 设置 完成 后 ， 单 击 “ 执 行 ”按钮 ， 即 可 生成 序列 模型 节点 ， 并 显示 在 管理 器 窗 
口 的 “模型 ”标签 下 。 


2. 浏览 模型 


右 击 生成 的 序列 模型 节点 ， 在 快捷 菜单 中 选择 “浏览 ”命令 ， 打 开 浏览 窗口 ， 单 击 
工具 栏 中 的 [ 畏 引 按钮 ， 并 选择 “显示 全 部 ” 即 可 浏览 到 所 有 生成 的 序列 模式 ,如 图 5.30 
所 示 。 


规则 支持 % 
30.0 


70.0 
60.0 
50.0 
50.0 
50.0 
30.0 
40.0 
30.0 
50.0 


brioches 
biscuits 
milk 


frozen veyeta... 
brioches 

milk 

beer 

frozen veyeta. 
brioches 

beer 


太太 


图 5.30 生成 的 序列 模式 


3. 生成 的 序列 模型 用 于 预测 


生成 的 序列 模型 节点 可 以 添加 到 某 个 数据 流 中 对 数据 进行 预测 。 例 如 ， 直 接 将 生成 
的 模型 添加 到 数据 流 中 来 对 样本 数据 进行 预测 。 


关联 规则 


将 生成 的 ID 模型 节点 加 入 到 数据 流 区 域 ， 并 建立 由 sequence.xls 节点 到 ID 节点 的 
连接 ， 然 后 在 ID 节点 后 添加 “ 表 ” 节 点 并 执行 之 ， 即 可 得 到 预测 结果 ， 如 图 5.31 所 示 。 


国 表 (18 个 字段 ，67 条 记录 ) #2 


国文 件 中。 号 编 加 但” 沪 生 成 @ 

ee brio... yoghurt | $8-ID-1 | $SC-ID-1 $5-ID-2 $5C-ID-2 $S-ID-3 
brioches 0.700 biscuits 0.600 milk 
brioches 0.700 biscuits 0.600 frozen vegetables 
brioches 0.700 biscuits 0.600 milk 
biscuits 0.600 milk 0.500 frozen vegetables 
biscuits 0.600 milk 0.500 frozen vegetables 
biscuits 0.600 milk 0.500 frozen yegetables 
milk 0.500 frozen vegetables 0.500 beer 
milk 0.500 beer 0.500 $null$ 


brioches 0.500 beer 0.500 $null$ 

brioches 0.700 biscuits 0.600 milk 

biscuits 0.600 milk 0.500 frozen vegetables 
beer 1.000 biscuits 0.600 milk 

biscuits 0.600 milk 0.500 frozen vegetables 
hrinches Dn6nn_milk 


图 5.31 预测 结果 


可 以 看 到 ， 在 原 有 的 数据 基础 上 ， 结 果 中 多 了 6 列 数据 。 这 6 列 数据 是 用 所 有 的 序 
列 模式 来 对 某 个 样本 进行 预测 时 ， 置 信 度 最 高 的 前 3 个 预测 结果 以 及 它们 的 置信 度 。 之 
所 以 只 显示 3 个 预测 结果 ， 是 因为 在 设置 建 模 参 数 时 ， 将 “要 添加 到 流 的 预测 ”设置 为 
了 3， 如 果 想 减少 或 增加 预测 结果 ， 可 以 改变 该 参数 的 设置 。 

例如 图 5.31 中 的 第 一 个 记录 的 预测 结果 : 

$S-ID-1=brioches $SC-ID-1=0.700 

$S-ID-2=biscuits $SC-ID-2=0.600 

$S-ID-3=milk $SC-ID-3=0.500 

其 含义 是 : 就 该 顾客 的 这 次 购物 来 看 ， 其 下 次 购物 时 购买 brioches 的 概率 是 70%， 
购买 biscuits 的 概率 是 60%， 购 买 milk 的 概率 是 50%。 

对 于 可 用 预测 数量 小 于 所 请 求 预测 数量 的 记录 ， 其 没有 的 预测 值 和 置信 度 显 示 为 
$null$ 。 


第 6 章 数据 筛选 


数据 筛选 ， 主 要 用 于 在 建立 数据 挖掘 模型 之 前 对 原始 数据 库 的 处 理 。 目 的 是 从 原始 
数据 库 中 筛选 出 合适 的 属性 和 合适 的 样本 来 作为 训练 数据 库 ， 从 而 建立 更 加 科学 、 准 确 
的 模型 。 

本 章 介绍 两 种 数据 筛选 算法 : 特征 选择 和 异常 检测 。 两 种 算法 用 于 不 同 的 场合 。 在 
Clementine 中 由 相应 的 建 模 节点 来 实现 这 两 种 算法 。 

在 建立 分 类 模型 之 前 ， 通 常 可 以 通过 特征 选择 来 筛选 出 那些 和 目标 属性 相关 度 较 高 
的 属性 来 参与 建 模 。 

当 研 究 异 常情 况 时 ， 可 以 通过 异常 检测 先 从 原始 数据 库 中 筛选 出 那些 异常 样本 ， 然 
后 再 通过 其 他 方法 对 这 些 异 常 样本 进行 分 析 。 


6.0 特征 ; 


特征 选择 用 于 在 建立 分 类 模型 或 者 预测 模型 之 前 ， 对 原始 数据 库 进行 预 处 理 。 因 为 
在 原始 数据 库 中 ， 可 能 包括 成 百 甚 至 上 千 个 属性 字段 ， 从 而 需要 花费 大 量 的 时 间 和 精力 
来 检查 模型 究竟 应 该 包含 哪些 字段 或 变量 ， 也 就 是 确定 哪些 字段 来 参与 建 模 。 那 些 和 我 
们 要 预测 的 属性 并 没有 什么 关系 或 者 关系 不 大 的 属性 就 没有 必要 参与 到 建 模 过 程 中 ， 比 
如 作为 主键 的 “样本 号 ”字段 。 可 以 使 用 特征 选择 算法 来 选择 那些 最 为 重要 的 字段 来 参 
与 建 模 。 

在 统计 学 中 ， 可 以 从 两 个 不 同 的 侧面 来 考察 两 个 变量 之 间 的 关联 关系 ， 即 独立 性 和 
相关 性 。 另 外 ， 根 据 变量 类 型 的 不 同 ， 有 具体 采用 的 分 析 方 法 也 不 尽 相 同 。 


1. 基本 概念 


表 6-1 显示 了 500 种 原料 的 基本 信息 ， 包 括 “ID”“ 地 区 来 源 ”” “价格 “生产 日 
期 人“ 保质 期 “等 级 ”等 属性 。 

假设 现在 要 根据 这 个 数据 库 建 立 一 个 预测 模型 ， 利 用 这 个 模型 ， 可 以 根据 某 种 原料 
的 “地 区 来 源 ”” “价格 ” “保质 期 ”等 属性 来 预测 其 “等 级 ”的 值 (是 “一 级 “二 级 ” 
还 是 “三 级 ”)。 

我 们 把 被 预测 的 那个 属性 称 为 “目标 变量 ”(Target Variable)， 这 里 “等 级 ”就 是 
目标 变量 。 把 用 来 预测 “目标 变量 ” 值 的 属性 称 为 “预测 变量 ”(Predictor Variable)， 
这 里 “地 区 来 源 ” “价格 ” “保质 期 ”等 属性 就 是 预测 变量 。 

特征 选择 ， 就 是 要 考察 数据 库 中 的 “预测 变量 ”与 “目标 变量 ”的 关联 程度 ， 或 者 


数据 筛选 


说 考察 每 个 预测 变量 对 最 终 预测 结果 的 重要 程度 。 这 个 重要 程度 用 一 个 指数 (importance) 
来 表示 。 特 征 选 择 算法 要 计算 每 个 预测 变量 的 importance 指数 。 
表 6-1 原料 基本 信息 数据 库 


ID 地 区 来 源 价格 生产 日 期 保质 期 等 级 
甲 地 区 100 2009-11-8 2 年 三 外 
2 乙 地 区 120 2009-10-4 3 年 二 多 
3 两 地 区 140 2009-4-3 5 年 三 级 
4 乙 地 区 125 2009-5-4 2 年 二 
5 丙 地 区 200 2009-5-4 3 年 一 纪 
500 丙 地 区 140 2009-10-4 1 年 二 级 
2. 算法 步骤 


特征 选择 算法 包括 以 下 3 个 步骤: 

(1) 筛选 Screening) : 除去 不 重要 或 有 问题 的 预测 变量 和 记录 ， 例 如 预测 变量 含 
有 过 多 缺失 值 ， 或 者 预测 变量 的 变化 太 大 或 太 少 而 变 得 无 用 。 

(2) 分 级 (Ranking) : 对 所 有 预测 变量 根据 其 重要 程度 进行 排序 。 

(3) 选择 〈Selecting) : 生成 在 后 续 模型 中 使 用 的 功能 子 集 ， 例 如 仅 保留 最 重要 的 
预测 变量 ， 过 滤 或 排除 所 有 其 他 预测 变量 。 

后 续 小 节 将 详细 介绍 这 3 个 步 又 。 


在 筛选 阶段 ， 要 删除 那些 不 适合 参与 建 模 的 预测 变量 ， 以 及 一 些 有 缺陷 的 样本 。 

(1) 满足 下 列 任 一 条 件 的 预测 变量 将 被 删除 : 

@ 变量 的 值 全 部 缺失 。 

@ 变量 的 全 部 取 值 都 是 固定 不 变 的 值 〈( 即 全 部 相同 )。 

@ 代表 样本 号 的 字段 。 

(2) 满足 下 列 任 一 条 件 的 样本 将 被 删除 : 

@ 目标 字段 的 值 缺失 的 样本 。 

@ 所 有 预测 字段 的 值 都 缺失 的 样本 。 

(3) 根据 用 户 的 自行 设置 来 删除 预测 变量 : 

@ 有 多 于 za% 的 值 缺失 ， 则 删除 该 变量 。 缺 失 值 百分比 很 大 的 字段 几乎 不 提供 任 
何 预测 信息 。 

@ 对 于 离散 型 的 预测 变量 ， 如 果 有 超过 m2% 的 样本 取 同 一 个 值 ， 则 删除 该 变量 
例如 ， 如 果 数 据 库 中 95% 的 客户 开 同 一 类 型 的 车 ， 则 此 信息 无 助 于 区 分 客户 。 

图 对 于 连续 型 的 预测 变量 ， 如 果 其 标准 差 小 于 m3%， 则 删除 该 变量 。 

@ 对 于 连续 型 的 预测 变量 ， 如 果 其 变异 系数 |CV| <m4%，C 玉 标准 差 /均值 。 因 为 如 
果 变 异 系 数 接近 0， 则 变量 值 的 变异 性 就 不 高 。 
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@ 对 于 离散 型 的 预测 变量 ， 变 量 取 值 的 个 数 大 于 总 样本 量 的 ms%。 则 删除 该 变量 。 
这 一 标准 用 于 筛选 掉 相 对 于 记录 总 数 而 言 具 有 过 多 类 别 取 值 的 字段 。 如 果 很 高 百分比 的 
类 别 只 含有 一 个 观测 值 ， 则 该 字段 用 处 有 限 。 例 如 ， 如 果 每 名 客户 都 戴 不 同 的 帽子 ， 则 
此 信息 在 建立 行为 模式 模型 时 就 不 太 可 能 有 用 。 

这 里 mi、m2、m3、m4a、ms 的 大 小 由 用 户 自行 设 定 。 


在 分 级 阶段 , 要 考察 每 个 预测 变量 对 于 预测 目标 变量 值 的 重要 程度 , 并 用 importance 
指数 来 表示 这 个 重要 程度 。 最 后 还 要 根据 重要 程度 的 大 小 对 所 有 预测 变量 排序 ， 也 就 是 
给 每 个 预测 变量 指定 “ 秩 ”(Rank)。“ 秩 ”是 指 根 据 某 种 大 小 次 序 排列 后 形成 的 顺序 号 。 

变量 之 间 相关 性 的 分 析 方 法 ， 是 以 统计 学 中 的 假设 检验 为 基本 原理 的 ， 这 里 涉及 了 
一 个 基本 的 概念 一 一 假设 检验 中 的 p 值 (p value)。 

进行 假设 检验 是 以 样本 数据 为 依据 的 ， 如 果 样 本 的 观察 结果 与 假设 的 数值 有 很 大 的 
差异 ， 我 们 就 会 怀疑 原 假设 是 否 成 立 。 

例如 ， 我们 提出 原 假 设 名: 新 生 儿 体重 的 总 体 均值 =3190g。 那 么 如 果 原 假设 成 立 的 
话 , 根据 正 态 分布 ,， 新 生 儿 体重 的 总 体 均值 大 于 等 于 32108g 的 概率 应 该 只 有 0.01242 (我 
们 把 这 个 概率 称 为 p 值 )。 现在 从 总 体 中 随机 地 抽取 一 部 分 样本 出 来 计算 样本 均值 , 结果 
为 3215g， 大 于 3210g。 这 个 过 程 表明 ， 一 个 小 概率 (0.01242〉 事件 ， 居 然 通过 一 次 实 
验 就 发 生 了 ! 然而 统计 学 里 的 “小 概率 ”原理 告诉 我 们 ， 发 生 概 率 很 小 的 随机 事件 在 一 
次 实验 中 几乎 是 不 可 能 发 生 的 。 那 么 现在 一 个 小 概率 事件 在 一 次 实验 中 发 生 了 ， 其 原因 
只 能 是 最 初 的 原 假设 在 很 大 程度 上 是 不 成 立 的 。 

因此 ,这 里 的 p 值 ， 就 是 在 原 假设 印 为 真 的 前 提 下 ， 某 个 事件 发 生 的 概率 (而 在 之 
后 的 一 次 随机 实验 中 的 确 发 生 了 )。 显 然 , 如 果 p 值 很 小 ,就 表示 小 概率 事件 在 一 次 实验 
中 发 生 了 ， 而 这 违背 了 “小 概率 ”原理 ， 我 们 就 有 理由 拒绝 原 假设 。 而 且 ，P 值 越 小 ， 
拒绝 原 假设 的 理由 就 越 充分 。 

所 以 ， 利 用 假设 检验 的 原理 进行 变量 的 相关 分 析 ， 我 们 可 以 首先 提出 原 假设 : 

Ho: 变量 了 与 变量 了 完全 不 相关 

然后 根据 样本 数据 集 来 观测 某 个 发 生 的 事件 , 并 计算 该 事件 在 印 假 设 下 发 生 的 概率 
( 即 p 值 )， 如 果 p 值 很 小 ， 就 有 一 定 的 理由 拒绝 印 假设 ,或 者 说 ， 变 量 革 与 变量 了 在 
某 种 程度 上 是 相关 的 。 可 见 ， 变 量 针 与 变量 了 的 相关 程度 是 可 以 用 p 值 来 度量 的 。p 值 
越 小 ， 变 量 针 与 变量 了 越 相关 ;， 反之， 它们 则 越 独立 。 
因此 ， 预 测 变量 相对 于 目标 变量 的 重要 程度 (importance 指数 ) 可 以 这 样 来 计算 : 
importance=1-p 
根据 目标 变量 是 离散 型 还 是 连续 型 ， 计 算 importance 指数 的 方法 也 不 同 ， 下 面 分 别 
进行 阐述 。 

1. 如 果 目 标 变量 是 离散 型 

这 里 要 分 3 种 情况 : 所 有 预测 变量 都 是 离散 型 ， 所 有 预测 变量 都 是 连续 型 ， 预 测 变 
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量 有 些 是 离散 型 、 有 些 是 连续 型 。 
1) 所 有 预测 变量 都 是 离散 型 
这 里 将 用 到 下 列表 示 符 号 : 
Bg 某 个 离散 的 预测 变量 ， 有 了 个 不 同 的 取 值 
Y 离散 型 目标 变量 ， 有 .7 个 不 同 的 取 值 
N 总 的 样本 数量 
Ny ”Ei 且 5 的 样本 数量 
NN。 ”Ei 的 样本 数量 ，N; = Ny 
=1 
Nj 巧 的 样本 数量 ，N, = Ny 
=] 
可 以 用 多 种 方法 来 度量 两 个 离散 型 变量 之 间 的 独立 性 或 者 关联 性 。 
(1) 基于 皮尔 还 x? 的 方法 
好 检验 常用 于 独立 性 检验 (Test of Independence), 用 来 判断 两 个 离散 变量 之 间 是 否 
存在 联系 ， 如 果 不 相互 关联 ， 就 称 为 独立 。 在 这 里 ， 如 果 预 测 变量 和 目标 变量 之 间 是 相 
互 独立 的 ， 那 么 这 个 预测 变量 对 目标 变量 的 影响 很 小 ， 其 importance 指数 就 一 定 很 小 。 
例如 要 根据 表 6-1 所 示 的 数据 库 来 检验 “地 区 来 源 ” 和 “等 级 ”之 间 的 独立 性 。 首 
先 根据 这 两 个 变量 的 取 值 统计 样本 数量 ， 并 建立 交叉 表 ， 如 表 6-2 所 示 。 


表 6-2 ”根据 两 个 变量 建立 交叉 表 


二 级 二 级 三 级 合 i 
甲 地 区 52 64 24 140 
乙 地 区 60 59 52 171 
丙 地 区 50 65 74 189 
合计 162 188 150 500 


表 中 的 数字 表示 样本 数量 。 例 如 第 一 个 单元 中 的 数字 “52” 表 示 地 区 来 源 =“ 甲 地 
区 ” 且 等 级 =“ 一 级 ”的 样本 数量 为 52。 

从 表 6-2 可 以 推出 : 

地 区 来 源 =“ 甲 地 区 ”的 概率 : P( 甲 地 区 )=140/500 

等 级 =“ 一 级 ”的 概率 : P( 一 级 )=162/500 

那么 ， 如 果 “ 地 区 来 源 ” 和 “等 级 ”这 两 个 变量 是 独立 的 ， 根 据 独立 性 的 概率 乘法 
公式 ， 可 以 计算 出 第 一 个 单元 ( 甲 地 区 ,一 级 ) 的 期 望 比例 : 

P( 甲 地 区 ,一 级 )= P( 甲 地 区 )X P( 一 级 )=(140/500)x(162/500)=0.09072 

0.09072 就 是 第 一 个 单元 中 的 期 望 比例 , 其 相应 的 频数 期 望 值 为 0.09072x500=45.36。 

以 此 类 推 ， 可 以 依 如 下 公式 计算 出 每 个 单元 中 的 频数 期 望 值 :Ni = N,N /1N 。 这 样 
得 到 一 个 zy (此 例 为 3x3) 的 列 联 表 ， 如 表 6-3 所 示 。 

令 卡 方 统 计量 为 : 

2 < (Ns —N,) 
2 


1 产 1 加 


， 该 值 越 大 ， 表 示 变量 间 的 关联 度 也 越 高 。 
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表 6-3 3x3 列 联 表 


。 L : (Ni 
行 列 Ny Ns Nz-Ny (Ni-Nyy er 
1 1 52 45.36 6.64 44.09 0.97 
1 5 64 52.64 11.36 129.05 2.45 
1 3 24 42.00 -18 324 7 
2 1 60 55.40 4.60 21.16 0.38 
2 吧 59 64.30 -53 28.09 0.44 
2 3 52 51.30 0.7 0.49 0.01 
号 1 50 61.24 —11.24 126.34 2.06 
3 有 65 71.06 —6.06 36.72 0.52 
和 74 56.70 17.30 299.29 5.28 


该 统计 量 近 似 服从 自由 度 4=( 荆 1)( 太 1) 的 卡 方 分 布 x 。 
基于 x? 统计 量 的 p 值 计算 为 : p= Prob( 丸 > 了 Y)=a ， 如 图 6.1 所 示 。 


好 


pa 


图 61 好 分 布 


预测 变量 了 的 重要 程度 (也 就 是 耻 与 目标 变量 了 之 间 的 关联 程度 ) 定义 为 

importance=1 一 Prob( X2>X”)=1 一 g 。 也 就 是 在 求 出 XY? 之 后 ， 根 据 了 ?的 值 查 x? 分 
布 表 得 出 对 应 的 显著 水 平 (p 值 )， 然 后 即 可 求 出 importance 指数 。 

在 本 例 中 ， 瑟 ?19.82， 自 由 度 为 4=(3-1)(3-1)=4， 查 x? 分 布 表 可 得 a =0， 则 
importance=]。 

最 后 ， 根 据 以 下 规则 对 预测 变量 排序 ， 并 从 “1” 开 始 生成 秩 。 

@ 根据 p 值 大 小 升序 排列 ; 

@ 车 有 相同 者 ， 按 x? 统计 量 大 小 降序 排列 ， 

@ 若 仍 有 相同 者 ， 按 自由 度 4d 的 大 小 升序 排列 ; 

@ 若 仍 有 相同 者 ， 按 在 数据 文件 中 的 自然 顺序 排列 。 

(2) 基于 似 然 率 x? 的 方法 

似 然 率 x? 是 一 种 通过 检验 观测 频数 与 期 望 频数 的 比值 来 分 析 变 量 了 和 变量 了 之 间 
的 独立 性 的 方法 。 同 样 ， 每 个 单元 中 的 频数 期 望 值 为 Ni = N; Nj /1N 。 似 然 率 x? 统计 量 
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N, 
6-726, Kh, = 加 
0 else 

该 统计 量 近似 服从 自由 度 于 (CDGCcD) 的 卡 方 分 布 好 。 

预测 变量 邓 的 重要 程度 (也 就 是 邓 与 目标 变量 了 之 间 的 关联 程度 ) 定义 为 : 

importance=1 一 Prob( x2>G”)=1 一 a 。 也 就 是 在 求 出 G 之 后 ， 根 据 G? 的 值 查 x? 分 
布 表 得 出 显著 水 平 ， 然 后 即 可 求 出 importance 指数 。 

在 本 例 中 ，G”=2X10.37=20.74， 自 由 度 为 4=(3-1)(3-1)=4， 查 x ?分布 表 可 得 & =0， 
则 importance=1。 

最 后 ， 预 测 变量 的 排序 规则 如 (1)。 

(3) p 系数 、C 系数 和 斑 系 数 

在 皮尔 逊 x? 的 基础 上 , 衍生 出 了 # 系数 和 C 系数 , 都 是 利用 x? 来 计算 的 相关 系数 。 
单位 频次 的 zx? 值 就 构成 了 y 相关 系数 


= 人 这 里 的 和 pp ee 


二 和 

乡 系数 适合 于 分 析 2X2 的 列 联 表 (变量 了 和 变量 了 各 自 只 有 两 个 取 值 , 天 广 2) 在 

这 种 情况 下 ， 如 果 yp =0， 表 示 变 量 了 和 了 之 间 完 全 不 相关 ; 如 果 yp=1 表示 变量 瑟 和 了 
之 间 完 全 相关 。 但 是 当 了 I 和 J 均 大 于 2 时 ，y 值 将 随 着 I J 的 增 大 而 增 大 ， 且 没有 上 限 ， 


这 时 系数 之 间 就 缺乏 了 比较 。 

为 了 克服 系数 的 这 个 缺点 ， 皮 尔 撑 提出 了 C 系数 

_ [5 SN) 
= 于， 这 里 的 和 - 

当 列 联 表 中 两 个 变量 闷 和 了 不 相关 时 ，C=0， 如果 两 个 变量 相关 ， 则 C 值 随 了 和 J 
的 变化 而 变化 ， 但 0<C<1。“C<1” 这 个 特点 反映 出 C 系数 的 一 个 缺陷 ， 因 为 人 们 在 习 
惯 上 认为 当 站 和 了 完全 相关 时 ， 其 相关 系数 应 该 等 于 1。 尽 管 如 此 ， 由 于 C 系数 适用 于 
最 低层 次 的 测量 尺度 ， 并 且 对 总 体 的 分 布 形式 没有 任何 要 求 ， 因 此 C 系数 的 应 用 较 广 。 

由 克拉 默 提出 的 了 系数 《Cramer's V) 避免 了 # 值 无 上 限 及 C 值 的 上 限 小 于 1 的 不 
足 ， 是 一 个 较为 适用 的 以 x 值 为 基础 的 相关 系数 ， 严 系数 的 计算 公式 为 


V= | i 
min[(7—D),(7-—D] VN[Emin(7.7)—1] 
当 变 量 了 与 变量 了 不 相关 时 , 三 0; 当 两 个 变量 完全 相关 时 , 天 1; 其 他 情况 下 ,0<V<1。 
最 后 ， 根 据 以 下 规则 对 预测 变量 排序 ， 并 从 “1” 开 始 生 成 秩 。 
@ 根据 VV 系数 大 小 降序 排列 。 
@ 若 有 相同 者 ， 按 x? 统计 量 大 小 降序 排列 。 
@ 若 仍 有 相同 者 ， 按 在 数据 文件 中 的 自然 顺序 排列 。 
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(4) 4 系数 (Lambda) 

4 系数 是 一 种 以 减少 误差 比例 (Proportional Reduction In Error) 为 基础 的 相关 性 测 
量 指标 。 当 分 析 变 量 筷 和 变量 了 之 间 的 相关 程度 时 , 可 以 通过 “不 知道 了 与 和 有 关系 时 ， 
预测 了 时 的 全 部 误差 FE1” 和 “知道 了 与 对 有 关系 时 ， 用 子 去 预测 了 的 误差 ”的 相对 
差 值 的 大 小 来 度量 ， 这 种 方法 又 称 为 减少 误差 比例 法 : 

4 三 及 

其 中 ，Ei 为 不 知道 了 与 卫 有 关系 时 ， 预测 了 时 的 全 部 误差 ， 忆 为 知道 了 与 他 有 关 
系 时 ， 用 式 去 预测 了 的 全 部 误差 。 

可 见 巨 -E, 表 示 知 道 了 与 人 有 关系 后 ， 预 测 了 所 减少 的 误差 。 而 上 = 名 名 则 表示 所 


1 


减少 的 相对 误差 。 2 包 = 包 越 大 ， 则 表示 了 入 的 关系 越 密切 ， 相 关 程 度 越 高 。 


和 
当 了 与 子 完 全 不 相关 时 ，El= E,， 此 时 4=0。 
当 了 与 邓 完 全 相关 时 ，Es=0， 此 时 4=1。 
其 他 情况 下 ，4 介 于 0 和 1 之 间 。 
Ei 的 定义 为 : 当 不 知道 了 与 对 有 关系 时 ， 如 果 来 预测 了 的 值 ， 唯 一 可 以 参考 的 就 是 
了 本 身 的 分 布 , 即 关 于 了 的 边缘 分 布 。 可 以 直接 用 其 边缘 分 布 中 的 众 数 去 猜测 了 的 值 (一 
组 数据 中 出 现 次 数 最 多 的 那个 数据 ， 叫 做 这 组 数据 的 众 数 )。 显 然 ， 用 这 个 值 来 猜测 了， 
比 用 其 他 值 来 猜测 闷 猜 中 的 概率 都 要 高 。 众 数 记 对 应 的 频次 为 maxCV))， 也 就 是 7 个 
频次 中 最 大 的 那 一 个 ， 那 么 这 样 预测 了 的 误差 为 
E=N-max(N,) 
. 
EE; 的 定义 为 :当知 道 了 与 天 有 关系 后 ， 如 果 要 预测 了 的 值 ， 则 根据 芋 的 值 所 对 应 的 
了 的 众 数 去 猜测 了 值 。 也 就 是 用 条 件 分 布 中 的 众 数 去 预测 了 的 值 ,这样 猜 中 的 频次 最 多 ， 
误差 最 小 。 
设 和 Ei 时 ， 条 件 分 布 中 众 数 的 频次 为 max(Ny) ， 也 就 是 X=i 的 前 提 下 ,7 个 频次 中 
最 大 的 那 一 个 ， 在 这 时 预测 了 产生 的 误差 为 
E=N- Dmax(N,) 


因此 ， 


Dmax(N,) max(N,) 
1010-2 2 J 


Nmax(N)) 


最 后 ， 根 据 以 下 规则 对 预测 变量 排序 ， 并 从 “1” 开 始 生 成 秩 。 
Q 根据 4 系数 大 小 降序 排列 。 

@ 若 有 相同 者 ， 按 变量 的 取 值 个 数 了 的 大 小 升序 排列 。 

@ 若 仍 有 相同 者 ， 按 在 数据 文件 中 的 自然 顺序 排列 。 
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2) 如 果 所 有 预测 变量 都 是 连续 型 

当 分 析 一 个 连续 变量 与 一 个 离散 变量 之 间 的 关系 时 ， 可 以 采用 单 因素 方差 分 析 的 方 
法 (一 元 方差 分 析 ，one-way Analysis Of Variance，one-way ANOVA )， 这 里 采用 的 是 基 
于 五 统计 量 的 p 值 检 验方 法 。 

这 里 将 用 到 下 列表 示 符 号 : 

和 N 目标 变量 区 /的 样本 数量 


对 于 所 有 了 3 的 样本 ， 预 测 变量 对 的 样本 均值 
总 和 过 
等 六 和 
3 对 于 所 有 7=i 的 样本 ， 预 测 变 量子 的 样本 方差 
NN 
2 0 一 二) 
2 jial 
| 
天 预测 变量 了 对 的 总 体 均值 
=_ lv 
“= NT 


各 观测 值 x 对 本 组 (所 有 Y=j 的 样本 ) 均值 元 的 偏差 平方 和 的 总 和 记 为 
Vy 
RSS= D(x -DT) =s(N, -1) 
i=l 
观测 值 的 组 均值 款 对 总 体 均值 x 的 偏差 平方 和 记 为 : 
BSS-= 六 NG -3)? 
j=1 
这 里 ，BSS 反映 了 各 组 或 各 类 样本 之 间 的 差异 程度 ， 它 是 由 于 了 的 取 值 不 同 所 引起 
的 。 而 RSS 则 是 由 其 他 未 知 因素 所 引起 的 误差 。 那么 ， 统 计量 
J 
NG -3)/(J -1 
_ BSS/(J -1) > sy 
RSSI(N-7D) SN,-DAN-D 


服从 分 子 自由 度 玉 = 大 1、 分 母 自 由 度 屯 =Ny 的 下 分 布 ， 即 F~F(J-1,N_)。 
基于 下 统计 量 的 p 值 计算 为 : p=Prob{F(J-1,N-)>F}=a ， 如 图 6.2 所 示 。 


FOU-1,N-J) 


加 
6.2 F(J-1,N-) 分 布 
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预测 变量 式 的 重要 程度 定义 为 : 

importance=1-Prob{F(J-1,N-J)>F}=1-& 。 也 就 是 在 求 出 下 之后， 根据 下 的 值 查 下 
分 布 表 得 出 对 应 的 显著 水 平 (p 值 )， 然 后 即 可 求 出 importance 指数 。 

最 后 ， 根 据 以 下 规则 对 预测 变量 排序 ， 并 从 “1” 开 始 生成 秩 。 

@ 根据 p 值 大 小 升序 排列 。 

@ 若 有 相同 者 ， 按 下 统计 量 的 大 小 降序 排列 。 

@ 若 有 相同 者 ， 按 样本 量 N 的 大 小 降序 排列 。 

@ 若 仍 有 相同 者 ， 按 在 数据 文件 中 的 自然 顺序 排列 。 

3) 预测 变量 有 些 是 离散 型 ， 有 些 是 连续 型 

如 果 预 测 变量 有 些 是 离散 型 ， 有 些 是 连续 型 ， 那 么 对 那些 连续 型 预测 变量 ， 采 用 基 
于 五 统计 量 的 p 值 来 计算 importance 指数 ， 对 那些 离散 型 变量 ， 则 用 基于 皮尔 逊 卡 方 的 


也 值 (或 者 基于 似 然 率 卡 方 的 p 值 ) 来 计算 importance 指数 。 


最 后 ， 根 据 以 下 规则 对 预测 变量 排序 ， 并 从 “1” 开 始 生 成 秩 。 

Q@ 根据 p 值 大 小 升序 排列 。 

@ 若 有 相同 者 ， 先 将 它们 分 为 “连续 型 ”和 “离散 型 ” 两 类 ,分 别 用 上 面 阐述 的 “所 
有 变量 是 连续 型 ”和 “所 有 变量 是 离散 型 ”两 种 情况 下 的 排序 规则 来 排序 。 最 后 ， 比 较 
排序 后 这 两 类 中 各 自 的 第 一 个 变量 在 数据 文件 中 的 顺序 ， 如 果 “ 连 续 型 ”类 中 的 第 一 个 
变量 在 数据 文件 中 的 顺序 在 前 ， 那 么 “连续 型 ”类 中 的 变量 就 排 在 “离散 型 ”类 中 变量 
之 前 。 反 之 ， 如 果 “ 离 散 型 ”类 中 的 第 一 个 变量 在 数据 文件 中 的 顺序 在 前 ， 那 么 “离散 
型 ”类 中 的 变量 就 排 在 “连续 型 ”类 中 变量 之 前 。 


2. 如 果 目 标 变量 是 连续 型 


这 里 也 要 分 3 种 情况 : 所 有 预测 变量 都 是 离散 型 ， 所 有 预测 变量 都 是 连续 型 ， 预 测 
变量 有 些 是 离散 型 、 有 些 是 连续 型 。 

(1) 所 有 预测 变量 都 是 离散 型 

如 果 所 有 预测 变量 都 是 离散 型 ， 且 目标 变量 是 连续 型 ， 同 样 可 以 采用 基 寺 下 统计 量 
的 p 值 检验 方法 。 

这 里 将 用 到 下 列表 示 符 号 : 

了 ”有 了 个 不 同 取 值 的 某 个 离散 型 预测 变量 

了 ”连续 型 的 目标 变量 。y 表示 第 j 个 让 i 的 样本 的 目标 变量 了 的 值 

N =i 的 样本 的 数量 

五 。 对 于 所 有 i 的 样本 ， We 


+ 


Na 


s(y) ”对 于 所 有 =i 的 样本 ， 了 的 样本 方差 
0y -了 7) 


s(y)= 二 
(7 | 
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y ”了 的 总 体 均值 


那么 构造 统计 量 下 
ZN, -DAI-D) 
—il 
sO DAN-D 
服从 分 子 自由 度 Ki= 关 1、 分 母 自由 度 =N-T 的 下 分 布 ， 即 F~F(1, NT)。 
基于 五 统计 量 的 p 值 计算 为 p=Prob{F(J 一 1,N 一 >F}=@。 
预测 变量 卫 的 重要 程度 定义 为 
importance=1 一 Prob{F(1 一 1,N 一 D>F}=1 一 & 。 也 就 是 在 求 出 斑 之 后 ,根据 五 的 值 查 
下 分 布 表 得 出 对 应 的 显著 水 平 (p 值 )， 然 后 即 可 求 出 importance 指数 。 
最 后 ， 根 据 以 下 规则 对 预测 变量 排序 ， 并 从 “1” 开 始 生成 秩 。 
@ 根据 p 值 大 小 升序 排列 ; 
@ 车 有 相同 者 ， 按 下 统计 量 的 大 小 降序 排列 ; 
图 若 有 相同 者 ， 按 样本 量 N 的 大 小 降序 排列 ; 
@ 若 仍 有 相同 者 ， 按 在 数据 文件 中 的 自然 顺序 排列 。 
(2) 如 果 所 有 预测 变量 都 是 连续 型 
这 里 将 用 到 下 列表 示 符 号 : 
下 某 个 连续 型 预测 变量 
了 ”连续 型 目标 变量 
= 这 筷 。 预测 变量 的 样本 均值 
1 


了 = 立 号 。 目标 变量 了 的 样本 均值 


1 


-DD 

S(O = 预测 变量 卫 的 样本 方差 
,0 -7) 

50) = 人 目标 变量 了 的 样本 方差 


从 概率 论 的 知识 可 知 ， 两 个 正 态 随 机 变量 尼 了 之 间 的 关系 由 协 方 差 来 刻度 
cov(X,T)=E(X-EX)\(Y -EY) 
变量 五 了 之 间 的 线性 关系 的 近似 程度 用 相关 系数 p 来 刻度 
_E(Y-EX)Y-EY) E(X-EX\(Y-EY) 
VDPDY) EE(X-EXYCO -EY) 
一 般 来 说 ，|p| 越 接近 于 1, 了 和 了 之 间 越 近似 地 有 线性 关系 。 由 于 在 统计 推论 中 把 
随机 变量 生 了 看 成 两 个 总 体 ， 因 此 也 把 jp 称 为 总 体 相 关系 数 。 由 概率 论 还 知 ，| pl1。 
且 当 p=1 时 ， 以 概率 1 存在 a 和 bp>0)， 使 得 天 atbX 成 立 ， 当 p=- 1 时， 以 概率 1 
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存在 a 和 MD<0)， 使 得 天 ca+bX 成立; 当 P=0 时 ， 互 和 了 不 相关 。 所 以 ， 两 个 正 态 随机 
变量 之 间 的 线性 联系 程度 完全 可 以 用 总 体 相关 系数 来 刻画 。 然 而 当 总 体 中 包含 的 样本 数 
量 非 常 庞 大 时 , 事实 上 是 无 法 计算 出 p 的 。 因此 必须 能 够 根据 数量 有 限 的 样本 , 来 计算 p 
的 估计 值 ， 并 根据 这 个 估计 值 来 刻画 变量 之 间 的 关系 。 

假设 从 总 体 中 随机 抽取 N 个 样本 点 (cu ?0，Go, 芒 )，"…，(xw yw)， 那 么 样本 的 均值 
Re 
为 : 7 7=Zy* 


在 XOY 平面 上 作出 点 Gti, y)， 计 1,2,…,N， 得 到 如 图 6.3 所 示 的 散 点 图 。 


y 
. 
ee ” 
3 
万 加 加 dd 
® . 
ee. 
. 
0 过 
图 6.3 样本 散 点 图 


将 坐标 轴 平 移 至 (, 了 )， 在 这 个 新 坐标 系 下 ， 如 果 点 (Gi, 蕊 落 在 新 坐标 系 的 第 [ 和 第 
了 UH 象限 ， 则 有 (x 一)(y; 一 妨 >0; 如 果 点 Gsi, 苛 落 在 新 坐标 系 的 第 工 和 第 IV 象 限 ， 则 有 
(x -Ty -7)<0。 

不 难 发 现 ， 如 果 所 有 的 样本 点 基本 上 都 沙 在 第 I 和 第 王 象 限 ， 则 


FG DD)>0, 这 时 称 了 和 了 正 线 性 相关 ; 如 果 所 有 的 样本 点 基本 上 都 落 在 第 工 
和 第 也 象限 ， 则 闵 Cs -PiO,- 玉 <0 ， 这 时 称 三 和 了 负 线性 相关 ; 如 果 
六 Ci -局 0 -到 =0， 则 称 了 和 了 之 间 不 存在 线性 关系 ， 此 时 ， 通 常 样本 点 会 比较 均匀 


地 散落 在 4 个 象限 中 。 
因此 ， 可 以 很 自然 地 想到 用 数值 (x; -3)(y 一 本) 来 衡量 和 了 之 间 线性 相关 程度 


强 弱 的 度量 。 但 还 有 两 个 问题 ， 其 一 ， 变 量 蕊 和 变量 工 的 计量 单位 不 相同 ， 其 二 ， 相 关 
程度 的 强 弱 必须 相对 于 一 个 可 供 对 比 的 标准 ， 理 想 的 标准 是 把 相关 关系 的 度量 控制 在 
[1.1] 里 。 为 此 ， 我 们 将 变量 标准 化 ， 然 后 再 求 其 乘积 的 平均 ， 得 到 


Wy (|)- 2 -D0 -7 


"NI 人 Ss sO) 


PCE DM 
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7 有 以 下 特征 : 

© hs1 

@ 当 |rEF1 时 , 了 和 了 完全 线性 相关 。 其 中 + = +1 时 称 为 完全 正 相 关 ; r = -1 时 称 
为 完全 负 相 关 。 

图 当 r=0 时 ， 开 和 了 不 相关 。 

@ 在 绝 大 多 数 情况 下 ， 一 1<r<1， 这 时 蕊 和 了 存在 一 定 的 线性 关系 。 

确定 统计 量 


ja Ps ， 该 统计 量 服从 自由 度 为 N 一 2 的 + 分 布 。 
基于 1 统计 量 的 p 值 计算 为 


_|0 La | 
? 2p(t>|t,)=2a else 


如 图 6.4 所 示 。 


tu(N-2) 


Qa ( 正 相关 ) 


Q( 负 相关 ) 


'. 


图 6.4 WN 一 2) 分 布 


然后 ，importance=1-p。 

最 后 ， 根 据 以 下 规则 对 预测 变量 排序 ， 并 从 “1” 开 始 生 成 秩 。 

@ 根据 p 值 大 小 升序 排列 ; 

@ 车 有 相同 者 ， 按 广 的 大 小 降序 排列 ; 

@ 若 有 相同 者 ， 按 样本 量 N 的 大 小 降序 排列 ; 

@ 若 仍 有 相同 者 ， 按 在 数据 文件 中 的 自然 顺序 排列 。 

(3) 预测 变量 有 些 是 离散 型 ， 有 些 是 连续 型 

如 果 预 测 变量 有 些 是 离散 型 ， 有 些 是 连续 型 。 对 于 连续 型 预测 变量 ， 采 用 上 述 基于 
t 统 计量 的 p 值 检 验方 法 ， 对 于 离散 型 预测 变量 ， 则 用 基于 开 统 计量 的 p 值 检 验方 法 。 

最 后 ， 根 据 以 下 规则 对 预测 变量 排序 ， 并 从 “1” 开 始 生成 秩 。 

Q@ 根据 p 值 大 小 升序 排列 。 

@ 若 有 相同 者 , 先 将 它们 分 为 “连续 型 ”" 和 “离散 型 ”两 类 , 分 别 用 上 面 阐述 的 “所 
有 变量 是 连续 型 ”和 “所 有 变量 是 离散 型 ”两 种 情况 下 的 排序 规则 来 排序 。 最 后 ， 比 较 
排序 后 这 两 类 中 各 自 的 第 一 个 变量 在 数据 文件 中 的 顺序 ， 如 果 “ 连 续 型 ”类 中 的 第 一 个 
变量 在 数据 文件 中 的 顺序 在 前 ， 那 么 “连续 型 ”类 中 的 变量 就 排 在 “离散 型 ”类 中 变量 
之 前 。 反 之 ， 如 果 “ 离 散 型 ”类 中 的 第 一 个 变量 在 数据 文件 中 的 顺序 在 前 ， 那 么 “离散 
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型 ”类 中 的 变量 就 排 在 “连续 型 ”类 中 变量 之 前 。 


在 本 阶段 ， 根 据 前 面 的 计算 结果 ， 来 选择 参与 建 模 的 预测 变量 。 根 据 用 户 的 不 同 设 


置 ， 可 以 有 多 种 不 同 的 选择 规则 。 
1. 根据 预测 变量 的 类 别 来 选择 


特征 选择 算法 最 终 根 据 各 预测 变量 的 importance 指数 将 它们 划分 为 3 类 : Important 


(重要 )、Marginal (一 般 重要 )、Unimportant (不 重要 )。 其 中 每 一 类 都 可 以 由 用 户 自行 


设 定 importance 指数 的 阔 值 。 例 如 Important 类 的 importance 指数 必须 满足 


0.93<importance<1，Marginal 类 的 importance 指数 必须 满足 0.9 二 importance<0.93， 


其 他 


属于 Unimportant 类 。 用 户 可 以 自行 指定 选择 Important 类 的 预测 变量 参与 建 模 ， 或 者 选 


择 Important 类 和 Marginal 类 的 预测 变量 参与 建 模 。 
2. 选择 importance 指数 最 大 的 前 k 个 预测 变量 参与 建 模 
可 以 用 下 述 方法 来 确定 上 的 数值 : 
设 Lo 表示 全 部 待 选 预 测 变 量 的 个 数 ， 那 么 kk 可 以 用 以 下 公式 来 估计 : 
k=[min(max(30,2VZ,))] 
其 中 “[]” 符 号 的 含义 是 ，[x] 表 示 最 接近 于 x 的 那个 整数 。 
根据 这 一 公式 ， 当 Lo 为 不 同 的 取 值 时 ，k 的 取 值 情况 如 表 6-4 所 示 。 
表 6-4 根据 Lo 确定 


Lo k HLo (%) 
10 10 100.00 
15 15 100.00 
20 20 100.00 
25 25 100.00 
30 30 100.00 
40 30 75.00 
50 30 60.00 
60 30 50.00 
100 30 30.00 
500 45 9.00 
1000 63 6.30 
1500 77 5.13 
2000 89 4.45 
5000 141 2.82 
10000 200 2.00 
20000 283 1.42 


50000 447 0.89 
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3. 根据 importance 指数 

用 户 可 直接 指定 importance 指数 阔 值 ， 大 于 阔 值 的 预测 变量 被 选择 出 来 参与 建 模 。 
4. 人 工 选择 

参考 得 到 的 importance 指数 ， 用 户 根据 实际 需要 和 领域 知识 自行 选择 。 


本 节 通 过 一 个 实例 来 演示 在 Clementine 中 特征 选择 节点 加 的 用 法 。 

事务 数据 集 为 Clementine 自 带 的 customer dbase 数据 集 ， 存 放 在 Clementine 安装 目 
录 下 的 Demos 文件 夹 中 (..\Clementine12\Demos\customer dbase.sav)， 包 含 了 132 个 字 
段 ，5000 条 记录 。 假 设 现在 要 根据 数据 集中 的 response_01 字段 来 建立 分 类 模型 ， 由 于 
字段 数量 很 多 , 可 以 先 用 特征 选择 算法 , 第 选 出 那些 对 response_01 字段 影响 较 大 的 字段 
来 参与 建 模 ， 而 忽略 那些 对 该 字段 影响 不 大 的 字段 。 

完整 的 数据 流 如 图 6.5 所 示 。 


[Sh 
customer_dbase.sav 类 型 response_01 
> Ul 


response_01 


6.5 ”特征 选择 数据 流 


首先 , 将 “数据 源 ” 中 的 “SPSS 文件 ”节点 添加 到 数据 流 区 域 , 并 将 customer dbase.sav 
文件 加 载 到 该 节点 。 

向 数据 流 中 添加 “类 型 ”节点 ， 并 建立 从 customer dbase.sav 节点 到 “类 型 ”节点 的 
连接 。 打 开 “ 类 型 ” 节点 的 编辑 窗口 ， 把 不 需要 分 析 的 字段 的 方向 设置 为 “无 ”( 这 里 把 
custid 的 方向 设置 为 “无 ”)， 把 目标 字段 response 01 的 方向 设置 为 “输出 ”其 他 字段 
的 方向 为 “输入 ”， 如 图 6.6 所 示 。 这 里 ， 输 入 字段 就 是 预测 变量 ， 输 出 字段 就 是 目标 变 
量 。 然 后 单 击 “ 读 取 值 ”按钮 。 

向 数据 流 中 添加 “特征 选择 ”节点 ， 建 立 从 “类 型 ”节点 到 “特征 选择 ”节点 的 连 
接 ， 然 后 对 “特征 选择 ”节点 进行 设置 ， 在 节点 编辑 窗口 的 “模型 ”标签 下 ， 设 置 如 图 
6.7 所 示 。 
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| 


Md] 辆 o | > 法 全 | 洛 队伍 | 洁 了 有 伍 | 


值 缺失 


字段 - 类 型 
人 ownpc 砚 集 
ownipod 而 集 
owngame “” 喝 集 
Ownfax 而 和 集 
[2 news 弗 东 


[KY response_01 更 集 
[CY response_02 而 集 
名 response_03 更 集 


01 
01 
01 
01 
01 
01 
01 
04 


同 巾 同 册 由 由 由 由 


回 查看 当前 字段 “ 〇 查看 未 使 用 的 字段 设置 


类 型 | 格式 | 注解 


EL 


图 6.6 设置 “类 型 ”节点 


dn 


也 


名 称 : 加 自动 〇 自 定义 


| 使 用 分 区 数据 
自 : 
器 起 失 值 的 最 大 百分比 700 访 (所 有 字段 ) 
器 单个 类 别 中 记录 的 最 大 百分比 | 。 900 同 殿中 
回 作为 记录 百分比 的 最 大 类 别 数 950 辐 供 别 ) 
回 最 小 变异 系数 三 侈 图) 
器 最 小 标准 莽 00 呈 爷 转 ) 
字段 | 模型 
一 一 一 一 [Lan][ 酝 j 
图 6.7 设置 筛选 阔 值 


这 里 有 5 个 筛选 字段 的 标准 以 及 相应 的 阔 值 设置 微调 框 。 
选 标准 并 设置 相应 的 阔 值 ， 满 足 匀 选 标准 及 阔 值 的 字段 将 被 屏蔽 。 这 5 个 阔 值 实际 上 就 


是 第 6.1.2 节 中 闻 述 的 参数 my、m2、m3、 


mas ms: 


用 户 可 勾 选 一 个 或 多 个 得 


缺失 值 的 最 大 百分比 〈Maximum Percentage of Missing Values): mi 
单个 类 别 中 记录 的 最 大 百分比 〈Maximum Percentage of Records In A Single 


Category) : 11 


作为 记录 百分比 的 最 大 类 别 数 〈Maximum Number of Categories As A Percentage of 


Records) : ms 


最 小 变异 系数 (Minimum Coefficient of Variation) : ma 


最 小 标准 差 (Minimum Standard Deviation) : ms 


数据 筛选 
在 “选项 ”标签 下 的 设置 如 图 6.8 所 示 。 


全 


response_01 


| 不 重要 
〇 字段 总 数 
〇 重要 性 大 于 
于 类 别 预测 变量 的 p 值 (重要 性 ) 
© Pearson 口 似 热 比 吕 克 莱 姆 系数 OLambda 


图 6.8 ”设置 字段 选择 标准 和 值 计 算 方 法 


这 里 提供 了 3 个 选择 字段 的 标准 ， 用 于 选择 那些 对 目标 变量 影响 较 大 的 预测 变量 。 

所 有 排列 的 字段 (All Fields Ranked ): 通过 设置 相应 的 阅 值 , 将 预测 变量 划分 为 “ 重 
要 ”“ 一 般 重要 ”和 “不 重要 ”3 类 ， 并 通过 勾 选 某 类 来 选择 该 类 的 预测 变量 。 

字段 总 数 (Top Number of Fields): 选择 importance 指数 最 大 的 前 个 预测 变量 。 

重要 性 大 于 (Importance Greater Than): 选择 importance 指数 大 于 指定 值 的 预测 
对 于 分 类 预测 变量 (离散 型 变量 )， 选 择 计算 p 值 的 方法 。 从 4 种 方法 中 选择 其 一 ， 
这 4 种 方法 的 详细 描述 见 第 6.1.3 节 。 

以 上 设置 结束 后 ， 单 击 “ 执 行 ” 按 钮 ， 即 可 在 管理 器 窗口 的 “模型 ”标签 下 显示 生 
成 的 特征 选择 模型 (Generated Feature Selection Model)“response_01”。 右 击 该 模型 ， 在 
快捷 菜单 中 选择 “浏览 ”命令 ， 即 可 打开 模型 对 话 框 ， 如 图 6.9 所 示 。 

该 窗口 由 两 个 子 窗口 组 成 。 在 下 半 部 分 的 子 窗口 中 ， 显 示 了 在 筛选 阶段 屏蔽 的 9 个 
字段 。 在 上 半 部 分 的 子 窗口 中 ， 显 示 了 按 秩 排列 的 所 有 预测 变量 的 字段 名 、 类 型 、 重 要 
性 和 importance 指数 值 ， 并 在 那些 满足 选择 标准 的 预测 变量 前 面 打 勾 ， 表 示 已 选择 ， 这 
里 选择 了 34 个 预测 变量 。 当 然 ， 用 户 还 可 以 根据 实际 情况 勾 选 其 他 自 认为 重要 的 变量 ， 
包括 下 面 被 屏蔽 的 9 个 字段 中 的 一 个 或 多 个 。 

将 生成 的 response_01 节点 添加 到 数据 流 中 , 并 建立 由 “类 型 ”节点 到 该 节点 的 连接 ， 
即 可 用 该 模型 对 原始 数据 集 进 行 筛选 , 因此 , 在 response 01 节点 之 后 再 添加 某 个 分 类 建 
模 节 点 ， 即 可 对 筛选 之 后 的 数据 集 进行 分 类 建 模 了 。 

可 以 通过 在 生成 的 response_01 节点 后 添加 “ 表 ” 节 点 来 浏览 经 过 response 01 节点 
过 滤 之 后 的 结果 。 

添加 “ 表 ” 节 点 ， 并 建立 由 response_01 节点 到 “ 表 ” 节 点 的 连接 ， 并 执行 “ 表 ” 节 


132 


数据 挖掘 算法 与 Clementine 实践 


点 ， 结 果 如 图 6.10 所 示 。 


国文 件 ”要 生 成 
中 可 | 等 级 a 3 
等 级 / 字段 类 型 重要 性 
局 1@ed 范围 而 重要 1.0 
局 2 全 ownpr 而 条 刘 重 要 1.0 
加 3¢% edcat 有 序 集合 册 重要 10 
4€ intemet 集 则 重要 10 
吕 5 人 equip 而 集 削 重 要 10 
加 6<2 owngame 砚 集 [向 重要 1.0 
加 7 仿 equipmon 人 少 范 围 刘 重 要 1.0 
局 8.€ confer 喝 集 向 重要 10 
回 9 全 ebil 而 集 齐 重 要 10 
YI 10 €& callwait 唱 集 [而 重要 1.0 
已 11 全 frward 喝 集 齐 重 要 1.0 
品 tollmon 乡 范围 出 重要 10 
品 13 心 multline 砚 集 而 重 要 1.0 
口 14 作 ownipod 而 集 刘 重 要 1.0 
回 15 全 callid 喝 集 削 重 要 10 
已 16 达 equipten 人 少 范围 向 重要 10 
加 17 © tollfree 砚 集 砷 重要 10 
品 18 信 toliten 作 范 围 向 重要 1.0 
选 定 字段 :34 。 所 有 可 用 字段 :130 
| 向 >0.95[#] <=0.95[]<0.9 
9 第 选 的 字段 
| 字段 类 型 原因 
© ownver 集 单个 类 别 过 大 
念 own 蝎 集 单个 类 别 过 大 
人 Yowndvd 砚 集 单个 类 别 过 大 
owncd ” 喝 集 单个 类 别 过 大 
人 Inwireten 秦 范 缺失 值 过 多 
Inwiremon 人 纱 范 缺失 值 过 多 
Inequipm.… 依 范围 变异 系数 低 于 阅 值 
全 commute.. 喝 集 单个 类 别 过 大 
| 口 一 人 一 cormmute_ 星人 入 交 个 准 久 Bt 小 


模型 | 汇总 | 注解 


图 6.9 特征 选择 结果 


国 表 (36 人 1 ，5, 000 条 记录 ) 


#3 


国文 件 虽 站 编辑 所。 忆 生 成 (@) 


custid 


edcat 


0648-AIPJSP-UVM 
5195-TLUDJE-HVO 
4459-VLPQUH-30L 
8158-SMTQFB-CNO 
9662-FUSYIM-TIV 
7432-QKQFJJ-K72 
8959-RZWRHU-ST8 
a LI L 


employ spousedcal pets_saltish 
0 -1 
0 : 

16 


图 6.10 ”特征 选择 后 的 数据 集 


数据 筛选 


可 以 看 到 ， 该 数据 集 共 包含 36 个 字段 ， 其 中 34 个 字段 是 特征 选择 的 结果 ， 另 外 两 
个 字段 是 custid 和 response_ 01。 因 为 在 设置 类 型 节点 时 ,custid 字段 的 方向 被 设置 为 “无 ”， 
即 不 分 析 它 与 目标 字段 间 的 关系 ， 所 以 该 字段 得 以 保留 。 而 response 01 是 目标 变量 ， 当 
然 被 保留 下 来 ， 所 以 共有 36 个 字段 


异常 数据 挖 据 ， 又 称 为 离 群 点 分 析 或 者 孤立 点 挖 气 。 在 人 们 对 数据 进行 分 析 处 理 的 
过 程 中 ， 经 常会 遇 到 少量 这 样 的 数据 ， 它 们 与 数据 的 一 般 模式 不 一 致 ， 或 者 说 与 大 多 数 
样 本 相 比 有 些 异常 。 我 们 把 这 种 数据 称 为 异常 数据 (Outlier Data)。 对 异常 数据 的 分 析 处 
理 在 某 些 领域 很 有 应 用 价值 ， 例 如 在 网 络 安全 领域 ， 可 以 利用 异常 数据 挖掘 来 分 析 网 络 
中 的 异常 行为 ， 在 金融 领域 ， 异 常数 据 的 识别 可 以 发 现 信用 卡 的 欺诈 交易 、 股 市 的 操控 
行为 、 会 计 信息 的 虚报 造价 、 洗 钱 活动 、 欺 诈 贷 款 等 。 

异常 数据 挖掘 涉及 两 个 基本 的 问题 。 其 一 ， 在 对 一 个 给 定 的 数据 集 进行 分 析 之 前 ， 
必须 事先 约定 满足 什么 条 件 的 数据 才 是 异常 :数据 ， 也 就 是 异常 数据 的 定义 问题 。 其 二 ， 
用 什么 方法 来 从 给 定 的 数据 集中 将 异常 常 数据 提取 出 来 。 


1. 异常 数据 的 定义 


对 于 异常 数据 ，Hawkins 的 定义 是 ,“ 异 常 就 是 在 数据 采集 中 与 众 不 同 的 数据 ， 使 人 
怀疑 这 些 数 据 并 非 随机 偏差 . 而 是 产生 于 完全 不 同 的 机 制 ”。 这 个 定义 说 明 ， 蜡 常数 据 是 
少量 的 、 与 众 不 同 的 ， 与 大 多 数 数据 相 比 是 有 “偏差 ”的 ， 而 且 产生 这 种 “偏差 ”的 原 
因 不 是 随机 的 (例如 录入 错误 )， 而 是 有 其 更 深层 次 的 必然 原因 ， 它 产生 于 完全 不 同 的 
机 制 。 

为 了 从 数据 集中 识别 异常 数据 ， 就 必须 有 一 个 明确 的 标准 。 这 就 需要 找到 数据 的 内 
在 规律 ， 在 一 个 可 接受 的 误差 范围 之 内 ， 满 足 内 在 规律 的 数据 就 是 正常 数据 ， 而 不 满足 
内 在 规律 的 数据 就 是 异常 数据 。 这 种 数据 间 的 内 在 规律 可 以 根据 数据 本 身 的 特点 从 位 置 
关系 、 函 数 关系 、 规 则 关系 、 序 列 关 系 等 方面 来 考量 。 

(1) 位 置 关系 

位 置 关 系 是 数据 之 间 最 常见 的 一 种 关系 。 大 多 数 正 常数 据 由 于 具有 很 大 的 相似 性 而 
符合 一 个 共同 的 模式 ， 在 空间 上 表现 出 聚拢 在 一 起 的 趋势 ,“ 团 结 ” 在 一 个 或 者 多 个 “ 核 
心 ”周围 。 而 那些 异常 数据 则 表现 得 很 “ 离 群 ”， 它 们 总 是 离 所 有 的 “核心 ”都 很 远 ， 如 
图 6.11 所 示 。 

(2) 函数 关系 

函数 关系 也 是 一 种 常见 的 数据 关系 ， 即 大 多 数 数据 都 符合 某 个 函数 模型 ， 因 此 数据 
点 大 多 分 布 在 函数 曲线 附近 ， 而 那些 异常 数据 则 距离 曲线 较 远 ， 如 图 6.12 所 示 。 
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图 6.12 ”数据 之 间 的 函数 关系 


(3) 规则 关系 

如 果 数 据 集中 某 些 数据 符合 某 个 规则 的 条 件 ， 则 称 这 些 数据 具有 规则 关系 。 具 有 同 
一 规则 关系 的 正常 数据 一 般 会 使 该 规则 的 结论 成 立 ， 而 如 果 某 个 数据 具有 该 规则 关系 但 
不 能 使 规则 的 结论 成 立 ， 那 么 它 就 是 异常 数据 。 规 则 的 一 般 形式 为 

有 4&4 及 4 >C 

这 里 4; 和 C 都 是 对 数据 特征 的 描述 。 

(4) 序列 关系 

序列 关系 是 指数 据 集中 的 某 些 数 据 满足 某 种 序列 模式 ， 而 那些 在 相同 条 件 下 不 满足 
序列 模式 的 数据 就 是 异常 数据 。 


2. 异常 挖掘 方法 


异常 挖掘 方法 是 数据 挖掘 的 一 个 重要 研究 方向 。 许 多 研究 人 员 从 不 同 的 角度 以 及 不 
同 的 应 用 领域 出 发 ， 提 出 了 不 同类 型 的 异常 以 及 挖掘 方法 。 从 技术 原理 来 看 ， 这 些 方法 
可 以 划分 为 基于 统计 的 方法 、 基 于 距离 的 方法 、 基 于 密度 的 方法 、 基 于 偏离 的 方法 和 基 
于 聚 类 的 方法 。 

(1) 基于 统计 的 方法 

基于 统计 的 方法 的 基本 思想 是 根据 数据 集 的 特性 事先 假定 一 个 数据 分 布 的 概率 模 
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型 ， 然 后 根据 模型 的 不 一 致 性 来 确定 异常 。 首 先 对 给 定 的 数据 集 假设 一 个 概率 分 布 模型 
(例如 正 态 分 布 )， 然后 在 某 个 显著 性 水 平 上 ， 确 定数 据 的 拒绝 域 和 接受 域 ， 拒 绝 域 是 数 
据 出 现 概率 很 小 的 区 间 ， 如 果 数 据 落 在 此 区 域 ， 则 判定 为 异常 数据 。 

统计 方法 的 优点 是 很 明显 的 。 它 建立 在 成 熟 的 统计 学 理论 基础 之 上 ， 只 要 给 定 概率 
模型 ， 其 统计 方法 非常 有 效 ， 异 常 点 的 含义 也 非常 明确 。 

但 存在 的 问题 是 ， 在 许多 情况 下 ， 我 们 并 不 知道 数据 的 分 布 ， 而 且 现 实数 据 也 往往 
不 符合 任何 一 种 理想 状态 的 数学 分 布 ， 这 样 就 对 后 期 的 异常 挖掘 产生 了 很 大 的 困难 。 另 
一 方面 基于 统计 的 方法 比较 适合 于 低 维 空间 的 异常 挖掘 ， 而 实际 的 数据 大 多 都 是 高 维 空 
间 的 数据 ， 在 这 种 情况 下 ， 事 先 估算 数据 的 分 布 是 很 困难 的 。 

(2) 基于 距离 的 方法 

基于 距离 的 方法 主要 基于 数据 点 间 的 距离 来 发 现 异常 点 ， 由 于 它 具 有 比较 明显 的 几 
何 解释 ， 是 当前 使 用 最 为 普遍 的 方法 。 

基于 距离 的 方法 的 基本 思想 是 以 距离 的 大 小 来 检测 小 模式 ， 异 常 点 被 认为 是 那些 没 
有 足够 多 邻居 的 点 。 它 可 以 描述 为 在 数据 集中 , 至 少 有 己 个 对 象 和 对 象 O 的 距离 大 于 
4d， 则 对 象 O 是 一 个 带 参 数 已 和 qd 的 基于 距离 的 异常 点 。 

基于 距离 的 检测 方法 的 优势 在 于 ， 它 不 需要 事先 了 解数 据 集 本 身 的 特性 ， 也 与 领域 
无 关 。 但 是 问题 在 于 对 参数 P 和 4 估计 的 困难 性 。 不 同 的 P 和 q 参数 的 确定 会 对 结果 带 
来 很 大 的 影响 。 

(3) 基于 密度 的 方法 

基于 距离 的 方法 对 全 局 各 个 聚 类 的 数据 提出 了 统一 的 已 和 q 的 参数， 但 是 如 果 各 个 
聚 类 本 身 的 密度 存在 不 同 ， 则 基于 距离 的 方法 会 出 现 问题 ， 因 此 提出 了 基于 密度 模型 的 
局 部 异常 点 挖掘 算法 。 

在 这 种 情况 下 ， 数 据 是 否 异常 不 仅仅 取决 于 它 与 周围 数据 的 距离 大 小 ， 而 且 与 邻 域 
内 的 密度 状况 有 关 ， 一 个 邻 域内 的 密度 可 以 用 包含 固定 数据 点 个 数 的 令 域 半径 或 者 指定 
半径 邻 域 中 包含 的 数据 点 数目 来 描述 。 

Breunig 和 Kriegel 提出 了 用 局 部 异常 因子 (Local Outlier Factor，LOF) 来 度量 对 象 
异常 程度 的 方法 。 只 要 一 个 对 象 的 LOF 远大 于 1， 它 可 能 就 是 一 个 异常 点 。 秘 内 靠近 核 
心 点 的 对 象 的 LOF 接近 于 1, 处 于 簇 的 边缘 或 是 簇 的 外 面 的 对 象 的 LOF 相对 较 大 , 这 样 
便 能 检测 到 局 部 异常 点 ， 更 贴近 于 实际 的 数据 集 的 特性 。 这 种 传统 的 局 部 异常 点 的 挖掘 
算法 的 主要 问题 在 于 局 部 范围 的 参数 Minpts 值 存在 选择 上 的 困难 , 可 以 运用 多 粒度 偏差 
因子 代替 Minpts 来 评价 ， 这 样 便 能 得 到 比较 好 的 解决 方案 。 

(4) 基于 偏离 的 方法 

基于 偏离 的 方法 的 基本 思想 是 通过 检查 一 组 对 象 的 主要 特征 来 确定 异常 点 ， 如 果 一 
个 对 象 的 特征 与 给 定 的 “描述 ”过 分 地 “偏离 ” 则 该 对 象 被 认为 是 异常 点 。 

现 有 的 基于 偏离 的 方法 主要 有 序列 异常 技术 和 OLAP 数据 立方 体 方法 。 

序列 异常 技术 的 核心 是 要 构造 一 个 相 异 度 函 数 (Dissimilarity Function)， 对 于 一 个 包 
含 了 许多 样本 的 数据 集 ， 如 果 样 本 间 的 相似 度 较 高 ， 相 异 度 函数 的 值 就 比较 小 ， 反 之 ， 
如 果 样 本 间 的 相 异 度 越 大 ， 相 异 度 函数 的 值 就 越 大 (例如 ， 方 差 就 是 一 个 满足 这 种 要 求 
的 函数 )。 那 么 ， 如 果 将 一 个 样本 从 数据 集中 剔除 后 ， 使 得 该 数据 集 的 相 异 度 大 大 减 小 
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就 可 以 判定 这 个 样本 是 异常 数据 。 

OLAP 数据 立方 体 方法 利用 在 大 规模 的 多 维 数据 中 采用 数据 立方 体 确定 反常 区 域 ， 
如 果 一 个 立方 体 的 单元 值 显 著 地 不 同 于 根据 统计 模型 得 到 的 期 望 值 ， 则 该 单元 值 被 认为 
是 一 个 异常 点 。 

(5) 基于 聚 类 的 方法 

基于 珍 类 的 方法 的 基本 思想 是 将 异常 挖 抉 的 过 程 转换 成 聚 类 的 过 程 。 首 先 将 数据 集 
利用 已 经 成 熟 的 模型 进行 聚 类 分 析 ， 将 数据 集 划 分 为 多 个 禾 ， 然 后 选择 那些 离 簇 的 质心 
较 远 的 样本 作为 异常 点 。 


本 小 节 介绍 的 是 Clementine 中 实现 异常 检测 的 算法 , 该 算法 在 Clementine 中 是 由 异 
常 节点 侈 来 执行 的 。 

这 是 一 种 结合 了 “基于 距离 ”和 “基于 聚 类 ”的 异常 挖掘 方法 。 该 算法 首先 应 用 
TwoStep 聚 类 算法 对 数据 集 进 行 聚 类 分 析 (TwoStep 算法 在 第 4 章 中 有 详细 介绍 )， 将 数 
据 集 划 分 为 若干 个 聚 类 (或 称 “ 对 等 组 ”)， 然 后 对 每 一 个 样本 ， 计 算 与 其 最 近 的 聚 类 的 
距离 ， 并 根据 距离 的 大 小 计算 出 一 个 “异常 指数 ”， 来 说 明 这 个 样本 到 底 有 多 么 “异常 ”。 
最 后 ， 用 户 可 以 通过 设 定 异常 指数 的 阔 值 ， 将 那些 大 于 阔 值 的 样本 选择 出 来 作为 异常 
数据 。 

执行 异常 检测 算法 ， 可 以 完成 两 个 任务 : 第 一 ， 从 数据 集中 确定 哪些 样本 是 异常 样 
本 ; 第 二 ， 对 每 一 个 异常 样本 ， 分 析 是 哪些 属性 的 取 值 导致 了 该 样本 成 为 了 一 个 异常 
样本 。 

该 算法 对 数据 的 格式 要 求 很 低 ， 数 据 集 可 以 同时 包含 连续 属性 和 离散 属性 ， 也 可 以 
有 缺失 值 。 不 过 算法 假定 连续 属性 的 取 值 服从 正 态 分 布 ， 离 散 属性 的 取 值 分 布 服从 多 项 
分 布 。 

整个 算法 分 为 3 个 步骤 : 

建 模 (modeling): 用 聚 类 算法 对 样本 进行 划分 。 

打分 (scoring): 对 每 一 个 样本 ， 计 算 它 与 其 所 在 聚 类 的 距离 ， 从 而 计算 出 它 的 异 
常 指数 。 然 后 将 所 有 样本 根据 异常 指数 的 大 小 降序 排列 。 最 后 ， 异 常 指数 最 大 的 一 部 分 
样本 被 确定 为 异常 样本 。 

推理 〈reasoning ): 对 每 一 个 异常 样本 ， 计 算 它 的 每 一 个 属性 的 “变量 偏离 指数 ” 
(Variable Deviation Index，VDI)， 用 来 衡量 该 属性 到 底 做 出 了 多 大 的 贡献 使 得 该 样本 成 
为 了 一 个 异常 样本 。 然 后 对 每 个 异常 样本 ， 将 所 有 属性 按照 VDI 的 大 小 降序 排序 ，VDI 
最 大 的 那 几 个 属性 及 其 取 值 被 认为 是 该 样本 成 为 异常 样本 的 重要 原因 。 

在 算法 的 描述 中 ， 用 到 了 下 列表 示 符 号 : 

ID: 数据 集中 的 样本 号 。 

n: 数据 集中 的 样本 数量 。 

xs， 有 1.2.… 开 : 全 部 输入 属性 组 成 的 集合 。 

Xt1: 在 数据 分 析 过 程 中 产生 的 一 个 新 的 属性 变量 ， 用 来 表示 每 个 样本 中 有 缺失 值 
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的 属性 数量 占 全 部 属性 数量 的 比例 。 

和 扰 ， 厂 1,2,…,KK : 在 处 理 了 缺失 值 之 后 数据 集中 的 每 个 属性 。 

Mi， 乒 1,2,…, 民 : 对 于 一 个 连续 属性 入，Mi 表 示 该 属性 所 有 样本 值 的 平均 值 ， 即 总 
体 均值 。 

SDt， 大 1.2,… 玉 : 对 于 一 个 连续 属性 素 ，SDk 表 示 该 属性 的 总 体 标 准 差 。 

万 ,或 者 也 的 边界 [Hwin, Hax]: 瑟 是 预定 义 的 聚 类 数量 。 或 者 ， 最 少 已 am 个 聚 类 ， 
最 多 页 mx 个 聚 类 。 

Nn， 有 =1,2,…, 玉 : 聚 类 户 (h=1,2,…,H) 中 的 样本 数量 。 

ph， 有 =1,2,…, 及 : 聚 类 户 (有 =1.2,…: 互 ) 中 的 样本 量 和 总 体 样本 量 的 比例 ，pp=nw/n。 

Mak == 1，…, K+1,h=1,…, 及 : 对 于 一 个 连续 属性 筷 ，Miwx 表 示 在 聚 类 hh 中 所 有 样 
本 的 素 的 平均 值 。 如 果 私 是 一 个 离散 属性 ，Mirx 表示 在 聚 类 h 中 ， 样 本 数量 最 多 的 玛 
的 值 ( 众 数 )。 

SDpnt, 上 E {1，…, K+1}, h= 1,…, 及 : 对 于 一 个 连续 属性 入，SDmx 表 示 聚 类 有 hh 中 到 
的 标准 差 。 

{ng}, k € {1, ,KR},h=1, ,j=1,…,: 当 乃 是 - -个 离散 属性 ， 有 天 个 不 
同 的 取 值 〈 表 示 不 同 的 类 别 )，m 表示 在 聚 类 h 中 属于 j 类 (=) 的 样本 数量 。 

m: 一 个 调整 的 权重 ， 用 来 平衡 连续 属性 和 离散 属性 对 建 模 的 影响 ， 默 认 值 为 6。 

VDI4, k= 1,…, K+1: 变量 偏差 指数 (Variable Deviation Index) ， 某 个 样本 的 某 个 
属性 七 与 该 样本 所 在 聚 类 的 该 属性 的 范 数 之 间 的 偏差 指数 。 

GDI: se Deviation Index), 是 一 个 对 数 - 似 然 距离 d(h,s)， 
是 所 有 属性 的 变量 偏差 指数 { VDI k= 1,…, K+1} 的 和 。 

异常 指数 (Anomaly Index) : 一 个 样本 的 异常 指数 ， 是 指 该 样本 的 GDI 除 以 该 样本 
所 在 聚 类 的 平均 GDI。 

变量 贡献 率 (Variable Contribution Measure，VCMk) : 对 于 某 个 样本 的 某 个 变量 马 ， 
用 它 的 VDI 除 以 它 的 GDI。 

pctanomaly OT manomaly : pctanomaly 是 预先 定义 的 异常 样本 的 比例 。 或 者 ，manomay 是 预先 
定义 的 异常 样本 的 数量 〈 一 个 正 整 数 ) 。 

Cutpointanomaty: 一 个 预定 义 的 分 割 点 ， 用 于 将 全 部 样本 按照 分 割 点 来 划分 为 异常 样 
本 和 非 异常 样本 。 

kanomaly: 一 个 预定 义 的 整数 阔 值 1 么 anomay<K+1， 对 于 一 个 样本 的 全 部 属性 ， 要 分 
析 其 中 anomary 个 影响 力 最 大 的 属性 。 


1. 建 模 阶段 


在 建 模 阶段 要 执行 下 列 任务 : 

(1) 数据 集 的 格式 化 

有 的 样本 的 连续 属性 的 值 太 大 大 于 10'”) ， 那 么 删除 这 个 样本 。 
有 的 样本 的 每 个 属性 的 值 都 缺失 ， 那 么 删除 这 个 样本 。 
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有 的 属性 ， 所 有 样本 的 该 属性 的 取 值 都 相同 〈 或 者 缺失 ) ， 那 么 删除 这 个 属性 。 

(2) 缺失 值 的 处 理 〈 可 选 步骤 ) 

对 于 数据 集中 的 每 个 属性 和 kx， 大 1.2,…, 天 ， 如 果 Xk 是 一 个 连续 属性 ， 用 该 属性 所 
有 的 有 效 的 值 来 计算 该 属性 的 总 体 平均 值 Mi 和 总 体 标准 差 SDke 用 计算 出 来 的 总 体 平均 
值 来 代替 所 有 的 缺失 值 。 如 果 Xk 是 一 个 离散 属性 ， 用 一 个 新 的 值 missing value 来 代替 
所 有 的 缺失 值 ， 它 被 作为 了 一 个 有 效 的 属性 值 。 数 据 集 {Xox} 被 以 上 处 理 完 之 后 ， 用 {i} 
来 表示 。 

(3) 创建 “缺失 值 比例 ”变量 (可 选 步 又 ) 

创建 一 个 新 的 属性 变量 黎 :1:， 用 来 表示 每 个 样本 中 有 缺失 值 的 属性 数量 占 全 部 属性 
数量 的 比值 。 

(4) 聚 类 划分 

用 经 过 上 面 处 理 后 得 到 的 属性 变量 Ci 大 = 1,…, K+1} 作 为 输入 变量 ， 用 TwoStep 
聚 类 算法 来 构建 一 个 聚 类 模型 ， 从 而 将 样本 分 配 到 某 个 聚 类 中 。 

(5) 生成 并 存储 各 种 统计 量 

对 每 一 个 连续 属性 孔 ， 计 算 并 存储 它 的 总 体 平均 值 Mi 和 总 体 标准 差 SDk。 

对 每 一 个 聚 类 有 hh (h=1,2,…, 万 ) ， 计 算 它 的 样本 量 ni。 如 果 及 是 一 个 连续 变量 ， 计 
算 聚 类 户 中 素 的 平均 值 Mx 和 标准 差 SDix; 如 果 私 是 一 个 离散 属性 ,有 j 个 不 同 的 取 值 ， 
计算 每 个 取 值 在 聚 类 h 中 的 频 度 nwy， 并 保存 该 属性 在 聚 类 h 中 的 众 数 Mux。 这 些 统计 量 
将 被 用 于 计算 一 个 聚 类 hh 和 一 个 给 定 的 样本 s 之 间 的 对 数 - 似 然 距 离 d(h,s)。 


2. 打分 阶段 


整个 算法 的 核心 部 分 在 这 一 阶段 。 本 阶段 给 测试 数据 集 ( 或 者 训练 数据 集 ) 的 每 个 
样本 打分 ， 也 就 是 计算 每 个 样本 的 异常 指数 以 及 各 属性 的 变量 贡献 率 。 

这 个 阶段 执行 下 列 任 务 : 

(1) 对 测试 数据 的 格式 进行 检查 

测试 数据 中 必须 包含 有 训练 数据 中 的 所 有 输入 字段 {Xox， k= 1. 2，…, 对 ， 而 且 这 些 
字段 的 格式 必须 也 与 训练 数据 的 格式 相同 。 

在 测试 数据 中 ， 如 果 某 个 样本 的 某 个 离散 属性 的 值 在 训练 数据 中 没有 出 现 过 ， 那 么 
这 个 样本 要 被 删除 。 例 如 ， 在 训练 数据 中 ，region 这 个 离散 属性 的 所 有 取 值 为 匡 ，M4 
和 C4， 但 是 在 测试 数据 中 有 一 个 样本 其 region 的 取 值 为 开 ， 那 么 这 个 样本 要 被 排除 。 

(2) 缺失 值 的 处 理 

对 每 一 个 输入 变量 和 ks， 有 12,…, 开 ， 如 果 Xor 是 一 个 连续 属性 ， 用 该 属性 所 有 的 有 
效 的 值 来 计算 该 属性 的 总 体 平均 值 Mi 和 总 体 标准 差 SDk。 用 计算 出 来 的 总 体 平 均值 来 代 
替 所 有 的 缺失 值 。 如 果 Xx 是 一 个 离散 属性 ， 用 一 个 新 的 值 missing value 来 代替 所 有 的 
缺失 值 ， 它 被 作为 了 一 个 有 效 的 属性 值 。 

(3) 创建 “缺失 值 比例 ”变量 〈 视 建 模 阶 段 是 否 有 ， 可 选 ) 

如 果 在 建 模 阶段 创建 了 和 sa， 那 么 在 打分 阶段 也 对 测试 数据 生成 也 sa。 

(4) 对 测试 数据 进行 聚 类 

用 生成 的 聚 类 模型 ， 对 测试 数据 中 的 每 个 样本 进行 聚 类 ， 把 每 个 样本 分 配 到 一 个 聚 
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类 当中 。 

(5) 计算 变量 偏差 指数 VDIk 和 组 偏差 指数 GDI 

给 定 一 个 样本 s， 以 及 与 其 最 近 的 聚 类 h， 样 本 s 的 组 偏差 指数 GDI 其 实 就 是 s 与 h 
的 对 数 似 然 距离 d(h,s)， 用 来 衡量 该 样本 与 聚 类 h 的 相似 程度 ,距离 越 大 , 表示 相似 度 越 
小 ， 反 之 则 相似 度 越 大 。 而 d(h,s) 是 由 样本 的 每 一 个 属性 值 乐 与 聚 类 中 相应 的 属性 值 之 
间 的 距离 分 量 dx(h,s) 累 加 而 成 的 。 这 里 dx(h,s) 就 称 为 变量 及 的 变量 偏差 指数 VDIk。 因此 ， 
要 计算 样本 s 的 组 偏差 指数 GDI, 就 必须 先 计算 s 的 所 有 变量 偏差 指数 {VDIk, k= 1,… 
K+1}。 

在 TwoStep 算法 中 阐述 了 计算 两 个 聚 类 之 间 对 数 似 然 距 离 的 方法 ， 这 里 计算 一 个 样 
本 与 一 个 聚 类 之 间 的 对 数 似 然 距离 时 ， 可 以 将 样本 当做 只 有 一 个 样本 的 聚 类 来 处 理 。 

那么 ， 属 性 和 相对 于 聚 类 h 的 变量 偏差 指数 VD 的 计算 方法 为 : 

@ 当 属 EN 

di(h,s)== i N; log(Ar + Oi) — Ns log(At + Os) + Nens> log(Ar + O21.s>1)] 
其 中 : 
NV 是 聚 类 hh 中 (不 包含 样本 s) 的 样本 数量 ; 
2 

4 = 和 是 一 个 正 的 调节 因子 ， 用 来 避免 当 聚 类 只 有 一 个 样本 时 对 数值 无 意义 的 情 
况 ( 这 里 的 m 由 用 户 自行 定义 ， 默 认 值 为 6， 避 是 整个 数据 集 的 私 的 样本 方差 ); 

3. 是 聚 类 hh 中 的 取 的 样本 方差 ; 

入 ;是 聚 类 s 中 的 样本 数量 ， 显 然 ，N 二 1; 

3 是 聚 类 s 中 的 私 的 样本 方差 ， 显 然 ，62 =0; 
Nss 是 肾 类 hh 包含 了 样本 s 之 后 的 样本 数量 ， 显 然 ，N ss =Nit1; 
063 svt 是 聚 类 hh 包含 了 样本 s 之 后 下 的 样本 方差 。 
因此 ， 上 式 可 化 简 为 : 
di(h,s) = 了 log(Ak + Gh) —log(A) +(N; +1)log(Ax | 
@ 当 属 性 变量 私 是 一 个 离散 属性 时 ， 
di(h,s)= -NB = NE 2 


其 中 ， 
加 是 计 类 有 中 (不 包 全 样本 ) 的 样本 数 最: 


Ex = D2 osCN -e] 是 到 类 h 中 息 的 所 有 取 值 的 期 望 频次 对 数 统计 量 ，Li 表 示 


也 有 到 个 不 同 的 取 什 ， Nw 表示 于 类 h 中 私 等 于 第 1 个 值 的 样本 数量 ; 
入 ;是 聚 类 s 中 的 样本 数量 ， 显 然 ，N=1; 
请, 聚 类 s 中 下 的 期 望 频次 对 数 统计 量 ， 由 于 s 中 只 有 一 个 样本 ， 所 以 评 , =0; 
Nnss 是 察 类 hh 包含 了 样本 s 之 后 的 样本 数量 ， 显 然 ，N ,=Nitl; 
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本 Wen Nu || 己 二 > “ 反光 [类 
齐全 es| 汪汪 | 是 区 亿 全 了 虱 本 s 之 后 的 也 涩 


统计 量 ，Nw sw 表示 聚 类 hh 包含 了 样本 s 之 后 下 等 于 第 1 个 值 的 样本 数量 。 
因此 ， 上 式 可 化 简 为 


di(h,s)=—N, Bx + (N, + DE sr 
在 计算 了 所 有 属性 变量 的 偏差 指数 {VDI4, = 1, 2,…, K+1} 之 后 , 即 可 计算 出 样本 的 
组 偏差 指数 GDI 
Me 


GDI=4q(h,s)= > 4di(h,s)， 其 中 ，K“ 是 样本 的 连续 属性 的 个 数 ，K” 是 样本 的 离 
天 =1 


散 属性 的 个 数 。 

(6) 计算 异常 指数 和 变量 贡献 

一 个 样本 s 的 异常 指数 ， 用 来 衡量 该 样本 与 其 所 在 聚 类 hh (包含 样本 s) 中 的 其 他 样 
本 相 比 ,到底 有 多 么 得 异常 。 它 是 样本 s 的 GDI 除 以 聚 类 中 所 有 样本 的 平均 GDI 所 得 
的 比值 

GDI, 

mean(GDI, ) 

异常 指数 越 大 ， 表 示 样 本 越 异常 。 通 常情 况 下 ， 异 常 指 数值 小 于 1 甚至 小 于 1.5 的 
观测 值 都 不 会 被 视 为 异常 值 ， 因 为 该 偏差 与 平均 值 相同 或 者 只 是 大 一 点 。 但 是 ， 指 数值 
大 于 2 的 观测 值 有 可 能 是 异常 观测 值 ， 因 为 该 偏差 至 少 是 平均 值 的 两 倍 。 

-个 属性 变量 忒 的 变量 贡献 率 ， 是 对 于 单个 的 样本 s 而 言 的 。 它 是 样本 s 中 属性 变 

量 素 的 VDK 除 以 样本 的 GDI' 所 得 的 比值 


AnomalyIndex = 


变量 贡献 率 用 来 衡量 一 个 属性 对 于 一 个 样本 异常 程度 的 影响 程度 。 一 个 属性 的 变量 
贡献 率 越 大 ， 表 示 该 属性 使 得 样本 趋 于 异常 的 影响 力也 越 大 。 

对 于 一 个 异常 指数 比较 大 的 样本 ， 可 以 通过 变量 贡献 率 ， 来 分 析 到 底 是 哪些 属性 的 
取 值 使 得 该 样本 成 为 了 一 个 异常 样本 。 


3. 推理 阶段 


通过 上 面 的 步骤 ， 已 经 计算 出 了 一 些 相关 的 指数 ， 包 括 组 偏差 指数 、 异 常 指数 、 变 
量 偏差 指数 以 及 变量 贡献 率 。 在 推理 阶段 ， 要 确定 出 哪些 样本 是 异常 样本 ， 并 给 出 将 它 
们 确定 为 异常 样本 的 理由 。 

(1) 确定 异常 样本 

将 全 部 样本 按照 异常 指数 的 大 小 降序 排列 。 然 后 根据 异常 分 割 点 Cutpointanomaty 来 将 
样本 划分 为 异常 或 者 非 异 常 的 样本 。 可 以 有 3 种 确定 分 割 点 的 方法 : 

Q 最 小 异常 指数 。 大 于 最 小 异常 指数 的 样本 ， 被 确定 为 异常 样本 。 

@ pctmomay: 按照 异常 指数 降序 排列 后 ， 最 前 面 的 pctanomay % 的 样本 被 确定 为 异常 
样本 。 
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@ maomay: 按照 异常 指数 降序 排列 后 ， 最 前 面 的 nanomaty 个 样本 被 确定 为 异常 样本 。 

这 里 pctanomaly 和 nanomaty 的 值 由 用 户 预先 设 定 。 

(2) 异常 的 原因 分 析 

对 每 一 个 异常 样本 ， 将 它 的 所 有 属性 按照 VDI 的 值 降序 排列 。 前 anomay 个 属性 的 
属性 名 、 属 性 值 等 被 列 出 ， 作 为 其 异常 的 原因 。 这 里 ，janomary 的 值 由 用 户 预 先 设 定 。 


本 小 节 演 示 在 Clementine 中 应 用 异常 检测 节点 来 从 数据 集中 筛选 出 异常 样本 的 例 
子 。 本 例 参考 了 Clementine 自 带 的 一 个 应 用 程序 示例 ， 用 于 识别 农业 发 展 财政 补贴 申请 
中 的 欺诈 行为 。 

训练 数据 集 存放 在 文件 grantfraudN.db 中 ， 该 文件 保存 在 Clementine 安装 目录 下 的 
Demos 文件 夹 中 。 这 是 一 个 记录 了 有 关 农 业 发 展 财政 补贴 申请 信息 的 数据 集 ， 包 括 10 
个 字段 (样本 ID、 申 请 人 姓名 、 地 区 、 田 地 大 小 、 降 雨量 、 田 地 质量 、 田 地 收入 、 主 要 
农作物 、 申 请 类 型 、 申 请 金额 )， 共 300 个 样本 。 现 在 ， 需 要 从 中 筛选 出 10 个 最 异常 的 
样本 ， 为 后 续 的 异常 数据 分 析 做 数据 准备 。 


完整 的 数据 流 如 图 6.13 所 示 。 
有 


SrantfraudN .dh 生成 的 - 异常 表 - 计 算 结 果 
多 一 
异常 (已 生成 ) 表 - 包 选 结果 


图 6.13 异常 数据 挖掘 数据 流 


1. 生成 模型 


首先 ， 将 “数据 源 ” 中 的 “可 变 文件 ”节点 添加 到 数据 流 区 域 ， 并 将 grantfraudN.db 
文件 加 载 到 该 节点 ， 然 后 对 该 节点 进行 编辑 ， 如 图 6.14 所 示 ， 在 “类 型 ”标签 下 ， 单 击 
“ 读 取 值 ”按钮 读 取 数 据 , 然后 将 字段 ID 和 name 的 方向 设置 为 “无 ”类 型 为 “无 类 型 ” 
即 这 两 个 字段 不 参与 建 模 ， 因 为 它们 与 样本 是 否 异常 没有 任何 关系 。 所 有 其 他 字段 的 方 
向 应 设置 为 “输入 ”， 这 样 它们 将 作为 输入 内 容 包 含 在 异常 检测 模型 中 。 

问 数据 流 中 添加 建 模 节 点 “异常 ”节点 ， 建 立 从 数据 源 grantfraudN.db 节点 到 “ 异 
常 ” 节 点 的 连接 ， 然 后 对 “异常 ”节点 进行 设置 ， 在 节点 编辑 窗口 的 “模型 ”标签 下 ， 
设置 如 图 6.15 所 示 。 
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Di\clementine12.0\Demos\grantfraudN.db 


-| 国志 | > 计生 | 治 队 得 | 洁 除 所 有 全 | 
类 型 


字段 一 值 缺失 | 检查 方向 
下 四 无 类 型 
[A] name 无 类 型 ee RO 
[A] region 而 集 midlands,north,so 无 疙 输入 
Kfarmsize 恨 范 围 [400,1980] 无 疙 输入 
CS rainfall 少 范围 [15,109] 无 NN 输入 
< landquality 人 侈 范 | [3.9 无 六 输入 
起 farmincome 俏 范 [47898.5,1649820 无 六 输入 
辐 maincrop ” 砚 集 maize,potatoes,ra.. 无 输入 
[a] claimtype 。 oe@ 标志 decommission_la 无 入 输入 
加 claimvalue ”从 范 围 [9371.14,609803.0] 无 NN 输入 


人 ) 查看 当前 字段 C 〇 ) 查看 未 使 用 的 字段 设置 


文件 | 数据 | 过 沁 | 类 型 | 注解 


图 6.14 编辑 数据 源 节点 


模型 名 称 : @) 自动 〇 自 定义 


[vy] 使 用 分 区 数据 

确定 判断 异常 的 截断 值 基于 : 
〇 最 小 异常 指数 水 平 20 启 
O 〇 训 绕 数 据 中 最 异常 的 记录 百分比 
e 训 绪 数 据 中 最 异常 的 记录 数 

要 报告 的 异常 宇 段 数 : 3 向 


图 6.15 异常 挖掘 的 基本 设置 


确定 判断 异常 的 截断 值 基于 (Determine Cutoff Value For Anomaly Based On): 也 


就 是 设置 异常 分 割 点 ， 如 前 所 述 ， 有 3 种 确定 分 割 点 的 方法 。 


(1) 最 小 异常 指数 水 平 (Minimum Anomaly Index Level): 即 最 小 异常 指数 阔 值 ， 


默认 值 为 2， 蜡 常 指数 大 于 等 于 2 的 样本 为 异常 样本 。 


(2) 训练 数据 中 最 异常 记录 的 百分比 (Percentage of Most Anomalous Records In 
The Training Data): 设置 pctanomay 的 值 ， 默 认为 1， 即 异常 指数 最 高 的 1% 个 样本 为 异 


常 样本 。 


(3) 训练 数据 中 最 异常 的 记录 数 (Number of Most Anomalous Records In The 


字段 | 模型 | 专家 | 注解 
[em] 于 J 


数据 筛选 


Training Data): 设置 waomary 的 值 , 默认 为 10, 即 异 常 指数 最 高 的 10 个 样本 为 异常 样本 。 
这 里 选择 第 3 项 ， 即 筛选 出 10 个 异常 样本 。 
要 报告 的 异常 字段 数 (Number of Anomaly Fields To Report): 设置 fanomay 的 值 ， 默 
认 值 为 3， 即 对 每 一 个 样本 列 出 3 个 变量 偏差 指数 最 大 的 属性 。 这 里 保持 默认 设置 。 
切换 到 编辑 窗口 的 “专家 ”标签 下 ， 设 置 如 图 6.16 所 示 。 


6.16 异常 挖掘 的 高 级 设置 


选择 “专家 ”模式 ， 然 后 对 下 列 参数 进行 设置 : 
调整 系数 〈Adjustment Coefficient): 在 计算 连续 属性 了 的 变量 偏差 指数 VDI 时 ， 


采用 了 个 正 的 调节 因子 A= 吧 ， 这 里 的 调整 系数 就 是 参数 m, 默认 值 为 6。m 用 于 平 


衡 在 计算 距离 时 赋予 连续 属性 和 离散 属性 的 相对 权重 的 数值 。 值 越 大 ， 连 续 属 性 的 影响 
也 越 大 。 它 必须 为 非 0 值 。 本 例 中 保持 默认 设置 。 

自动 计算 对 等 组 数 (Automatically Calculate Number Of Peer Groups) : 异常 检测 
可 以 通过 在 聚 类 过 程 中 生成 不 同 数量 的 聚 类 而 形成 多 种 可 能 的 解决 方案 ， 并 选择 训练 数 
据 的 最 佳 的 聚 类 数量 。 用 户 可 以 设置 聚 类 数 的 “最 小 值 ” 和 “最 大 值 ” “最 小 值 ” 和 
“最 大 值 ”就 是 前 文中 提 到 的 Fwin 和 Hwax〉 使 系统 在 一 个 范围 内 搜索 可 能 的 解决 方案 。 
当然 ， 范 围 越 大 ， 消 耗 的 处 理 时 间 也 随 之 增加 。 

指定 对 等 组 数 (Specify Number Of Peer Groups) : 如 果 知道 模型 中 应 包含 聚 类 的 
数量 ， 可 选中 此 选项 并 输入 相应 的 数值 。 由 于 无 须 搜索 可 能 的 解决 方案 ， 选 中 此 选项 可 
提高 性 能 。 

噪声 水 平 (Noise Level) 和 了 噪声 比率 (Noise ratio) : 设置 这 两 个 参数 是 为 了 确定 
在 TwoStep 聚 类 的 过 程 中 如 何 处 理 离 群 值 。 
噪声 水 平 ， 指 定 值 必须 处 于 0~0.5 之 间 。 此 设置 只 有 在 以 下 情况 中 才 有 用 : CF 树 
在 生长 期 间 被 充满 , 即 该 树 的 叶 节 点 无 法 接收 更 多 的 观测 值 且 叶 节点 无 法 分 袭 。 如果 CF 
树 被 充满 且 信 品 等 级 设置 为 0, 则 闵 值 了 将 增 大 目 CF 树 将 用 所 有 观测 值 重新 生长 ( 详 见 
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第 4.3 节 ) 。 创 建 最 终 聚 类 后 ， 先 前 那些 无 法 被 分 配 到 聚 类 的 值 将 被 标记 为 离 群 值 。 离 
群 值 聚 类 将 被 赋予 一 个 识别 号 “-1”。 离 群 值 聚 类 不 包含 在 聚 类 数 的 计数 中 ， 也 就 是 说 ， 
如 果 指 定 n 个 聚 类 和 噪声 处 理 , 则 算法 将 输出 n 个 聚 类 和 一 个 噪声 聚 类 。 在 实际 应 用 中 ， 
增 大 此 值 可 使 算法 更 有 可 能 将 异常 记录 分 配 到 普通 聚 类 中 ， 而 不 是 将 它们 分 配 到 独立 的 
离 群 值 聚 类 中 。 

如 果 CF 树 被 充满 且 信 噪 等 级 大 于 0， 则 CF 树 把 稀疏 叶子 节点 中 的 所 有 数据 放 入 
其 自身 的 噪声 叶子 节点 后 再 重新 生长 〈 如 果 叶 子 节点 中 的 观测 值 数量 与 最 大 叶子 节点 中 
的 观测 值 数量 的 比率 小 于 噪声 水 平 ， 则 该 叶子 节点 将 被 认定 为 稀疏 叶子 节点 ) 。 树 创建 
完成 后 ， 可 能 的 话 ， 离 群 值 将 被 放置 在 CF 树 中 。 如 果 未 放 在 树 中 ， 在 第 二 步 聚 类 中 将 
丢弃 这 些 离 群 值 。 

噪声 比率 : 在 噪声 缓冲 区 中 内 存 的 分 配 比 例 ， 此 值 必须 处 于 0 一 0.5 之 间 。 如 果 将 特 
定 观测 值 插 入 树 的 叶子 节点 后 ， 所 产生 的 紧密 度 小 于 闵 值 ， 叶 子 节点 将 不 再 分 裂 。 如 果 
紧密 度 超过 阔 值 ， 叶 子 节点 将 分 裂 ， 也 就 是 产生 一 个 新 的 小 聚 类 。 实 际 上 ， 提 高 此 设置 
值 将 可 能 导致 算法 容易 更 快速 地 创建 较 简 单 的 树 。 

播 补缺 失 值 (Impute Missing Values) : 该 选项 实际 上 是 指出 缺失 值 的 处 理 方式 。 
如 果 选 中 该 选项 ， 对 于 连续 型 属性 ， 用 均值 来 填充 缺失 值 。 对 于 离散 型 属性 ， 用 一 个 新 
的 值 missing value 来 填充 所 有 的 缺失 值 ， 它 被 作为 了 一 个 有 效 的 属性 值 。 如 果 取 消 选中 
此 选项 ， 则 任何 带 有 缺失 值 的 记录 都 将 从 分 析 中 剔除 。 

以 上 设置 结束 后 ， 单 击 “ 执 行 ” 按 钮 ， 即 可 在 管理 器 窗口 的 “模型 ”标签 下 显示 生 
成 的 “异常 ”模型 。 

2. 浏览 和 应 用 模型 


将 生成 的 “异常 ”模型 节点 从 管理 器 窗口 拖 入 到 数据 流 区 域 中 ， 双 击 该 节点 ， 即 可 
打开 编辑 窗口 ， 对 模型 进行 浏览 ， 如 图 6.17 所 示 。 


| Bxr® Ofm@ 
Se 


Cit LS. sme 


日 -名 对 等 组 -1: 202 记录 
日 


未 报告 原因 的 残 禾 .43 48% 
由- 对 等 组 配置 
日 - 认 对 等 组 -2 98 记录 
由 -异常 从 估计 的 总 共 98 条 记录 中 找到 7 了 条 记录 
扬 - 对 等 姐 配置 


白 -fp dlaimwalue(27147449) 
标准 差 -102289.578 

由 famineome(86552051) 

Bp farmsize (1462449) 

-ep landqualiy (7.122) 

-tp rainfall (95.949) 

扎 而 claimtype (decommission_land-> 6327%) 
decommission_land -> 63.27% 
arable_dev-> 36.73% 


| 重型 || 汇总 | 设置 | 注解 
Cac] [xo | Lem | ee® | 
图 6.17 模型 的 详细 信息 
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在 “模型 ”标签 下 ， 可 以 看 到 ， 所 有 记录 被 划分 为 了 两 个 对 等 组 〈 聚 类 )， 对 等 组 -1 
中 包含 有 202 个 记录 ， 其 中 有 3 条 记录 被 确定 为 异常 。 对 等 组 -2 中 包含 有 98 个 记录 ， 
其 中 有 7 条 记录 被 确定 为 异常 。 

这 里 , 显示 了 每 个 对 等 组 中 异常 记录 的 统计 信息 表 , 其 中 包括 “收益 ”(contribution)、 
“计数 ”(count) 和 “平均 指数 ”(Average Index)， 罗 列 出 了 变量 偏差 指数 较 高 的 一 些 属 
性 及 相关 统计 信息 。 

例如 ， 对 于 对 等 组 -1 中 的 3 个 异常 记录 ， 在 筛选 结果 〈 见 后 续 内 容 ) 中 可 以 找到 这 
3 个 异常 记录 以 及 每 个 记录 的 3 个 变量 偏差 指数 最 大 的 属性 : 

异常 记录 1: rainfall (0.230); region (0.219); landquality (0.193) 

异常 记录 2: maincrop (0.236); rainfall (0.163); farmsize (0.155) 

异常 记录 3: region (0.181); landquality (0.160); maincrop (0.158) 

在 “收益 ”一 列 中 ， 列 出 了 上 面 的 这 些 属性 ， 其 中 landquality 出 现 了 两 次 ， 所 有 它 
的 “计数 ”为 “2”， 而 它 的 “平均 指数 ”就 等 于 这 两 次 的 变量 偏差 指数 的 平均 值 (0.193+ 
0.160) /2=0.176。 同 理 ， 计 算 并 显示 了 其 他 属性 的 “计数 ”和 “平均 指数 ”。 

另外 ， 在 “对 等 组 配置 ”下 ， 还 显示 了 在 该 对 等 组 中 ， 所 有 属性 的 统计 信息 : 

对 于 连续 属性 ， 显 示 了 属性 在 该 组 中 的 均值 和 标准 差 。 例 如 对 等 组 -2 中 ， 属 性 
claimvalue 的 均值 为 271474.49， 标 准 差 为 102289.578。 

对 于 离散 属性 ， 显 示 了 属性 在 该 组 中 的 每 个 取 值 的 样本 比例 。 例 如 属性 claimtype， 
有 63.27% 的 记录 该 属性 取 值 为 decommission land， 有 36.73% 的 记录 该 属性 取 值 为 
arable_dev。 

在 窗口 的 “汇总 ”标签 下 ， 显 示 了 关于 本 次 建 模 的 一 些 汇总 信息 ， 如 图 6.18 所 示 ， 
其 中 显示 了 异常 指数 的 截断 值 ， 本 例 的 异常 指数 截断 值 为 1.35034， 即 异常 指数 大 于 
1.35034 的 记录 被 确定 为 了 异常 记录 。 


一 确定 异常 截断 值 的 根据 : 训 绑 数据 中 大 多 数 异 常 记录 的 数目 
一 异常 记录 数 : 10 

异常 字 段 数 : 3 
汪 归 因 于 缺失 值 : 真 

调整 系数 6.0 


模型 | 汇总 | 设置 | 注解 
ao] eg] Lm] 


6.18 ”模型 的 汇总 信息 
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在 窗口 的 “设置 ”标签 下 ， 要 对 模型 进行 一 些 设置 (如 图 6.19 所 示 )， 这 是 为 了 在 
后 面 当 用 该 模型 对 测试 数据 进行 异常 检测 时 对 检测 的 输出 结果 进行 控制 。 


图 6.19 ”设置 模型 以 控制 输出 结果 


指出 异常 记录 (Indicate Anomalous Records With ): 这 个 设置 指出 在 对 测试 数据 进 
行 异常 检测 后 ， 在 输出 结果 中 对 异常 记录 的 处 理 方式 ， 有 3 个 选项 : 

(1) 标志 和 指数 (Flag And Index): 在 输出 结果 中 ， 创 建 一 个 标志 字段 ， 任 何 异 常 
指数 超过 截断 值 的 记录 ， 其 标志 字段 的 值 将 被 设置 为 真 T) ， 和 否则 设置 为 假 (FE) 。 同 
时 ， 列 出 每 个 记录 的 异常 指数 。 

(2) 仅 限于 标志 Flag Only) : 创建 标志 字段 ， 但 不 报告 每 条 记录 的 异常 指数 。 

(3) 仅 限于 指数 (Index Only) : 报告 异常 指数 但 不 创建 标志 字段 。 

we (Number of Anomaly Fields To 和 人 设置 数值 Kaomaly， 


寺 夺 记录 (Discard Records) : 和 果 需要 在 后 级 数据 分 析 中 仅仅 关注 异常 常数 据 或 
i 可 以 选择 此 选项 ， 然 后 选择 “ 非 异 常 ”， 可 将 所 有 非 异 常 记录 丢弃 (或 
者 “异常 ”， 将 所 有 异常 记录 丢弃 ) 。 这 里 不 选择 “丢弃 记录 ”， 即 输出 所 有 记录 。 

在 “注解 ”标签 下 ， 选 择 “ 自 定义 ”， 并 在 其 后 的 文本 框 中 输入 “生成 的 -异常 ”， 
以 把 该 节点 的 名 称 更 改 为 “生成 的 -异常 ” 


最 后 ， 单 击 “确定 ”按钮 ， 结 束 设 置 。 现 在 可 以 用 “生成 的 -异常 ”节点 来 对 测试 数 
据 进行 异常 检测 了 ， 这 里 就 直接 对 训练 数据 进行 测试 。 
建立 从 AAA 节点 到 “生成 的 -异常 ”节点 的 连接 ， 然 后 在 “生成 的 -异常 ” 


节点 后 面 添加 一 个 “ 表 ” 节 点 ， 并 建立 从 “生成 的 -异常 ”节点 到 该 “ 表 ” 节 点 的 连接 ， 
双击 “ 表 ” 节 点 ， 打 开 编 辑 窗口 ， 在 窗口 的 “注解 ”标签 下 ， 将 名 称 自 定义 为 “ 表 - 计 算 
结果 ”， 然 后 执行 “ 表 ” 节 点 ， 结 果 如 图 6.20 所 示 。 


数据 筛选 


-计算 结果 (19 口 
国文 件 吕 “ 癌 编 强 日 “ 记 生 成 ”| 图 [S| 的 @ 
alue| $0-Anomaly| $0-Anomalyindex | $0-PeerGroup| $0O-Field-1 | $0-FieldiImpact-1 
1 100F 0.825 1 landquality 0.20Is 
2 4.0...F 1.285 2 rainfall 0.28 习 
FE] .000F 0.917 1maincrop 0.28: 
4 .0..F 1.323 2 landquality 0.30: 
5 |6.0...F 1.244 1 region 0.25! 
6 |5.0. FF 0.917 1maincrop 0.20， 
了 200F 0.980 1farmsize 0.25 
8 上.0.F 1.080 25claimvalue 0.29! 
9 4.0..F 0.971 2 region 0.26! 
10 600F 0.784 1 人 farmsize 0.19 
11 .000F 0.774 1maincrop 0.24: 
12 11.0.F 0.948 2 region 0.24! 
13 | Ee 
和 上 
表 | 注解 


图 6.20 异常 检测 结果 


可 以 看 到 ， 在 原 有 的 10 个 字段 基础 上 ， 输 出 结果 中 又 多 出 来 若干 个 字段 : 
$O-Anomaly: 标志 字段 ， 若 为 异常 记录 ， 则 显示 “T”， 耕 则 为 “F”。 


$O-AnomalyIndex: 记录 的 异常 指数 值 。 


$O-PeerGroup: 记录 被 划分 到 的 聚 类 号 。 
$O-Field-n: 记录 中 变量 偏差 指数 最 大 的 第 n 个 属性 的 名 称 。 
$O-FieldImpact-n: $O-Field-n 所 指 属 性 的 变量 偏差 指数 。 
下 面 ， 根 据 模型 生成 选择 节点 ， 把 所 有 异常 记录 筛选 出 来 。 


双击 “生成 的 -异常 ”节点 ， 在 “生成 ”菜单 下 单 击 “ 选 择 节 点 ”按钮 ， 即 可 在 数据 


流 区 域 生 成 一 个 “: 生 成 的 ”选择 节点 ， 双 击 该 节点 ， 如 图 6.21 所 示 。 


最 式 : G) 包括 〇 丢弃 


$0-Anomalyindex>=1.35034 


图 6.21 生成 的 选择 节点 


可 以 看 到 在 条 件 栏 中 有 “'$O-AnomalyIndex>=1.35034”， 即 把 异常 指数 大 于 等 于 


1.35034 的 记录 筛选 出 来 。 


建立 从 节点 “生成 的 -异常 ”到 节点 “: 生 成 的 ”连接 , 并 在 “: 生 成 的 ”后 面 添 加 “ 表 ” 
节点 ， 建 立 到 “ 表 ” 节 点 的 连接 ， 双 击 “ 表 ”节点 后 ， 在 编辑 窗口 中 将 “ 表 ” 节 点 更 


为 “ 表 - 筛 选 结果 ”， 然 后 执行 “ 表 ” 节 点 ， 可 得 到 筛选 结果 ， 如 图 6.22 所 示 。 


继续 分 析 。 
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国文 作品 “ 门 编 明日 ” 妃 生 成 国 四 避 


Indquality 人 armincome| maincrop claimtype 


claimvalue| $O-Anomaly| 


1 9 1621150.0... maize decommission_land 574478.0..T 
2 9 1649820.0... wheat arable_dev 438677.0..T 
3 9 566907.000 rapeseed decommission_land 204204.0..T 
4 9 363238.000 wheat decommission_land 64827.200T 
5 8 1588890.0... rapeseed arable_dev 442416.0...T 
6 8 1569890.0... maize decommission_land 606381.0..T 
了 8 1427810.0... potatoes decommission_land 65609803.0..T 
8 8 53345.900 potatoes decommission_land 21231.500T 
9 9 577327.000 rapeseed arable_dey 175586.0..T 
10 9 1296760.0... potatoes arable_dev 437473.0..T 
表 | 注解 


图 6.22 输出 所 有 异常 记录 
若 想 对 异常 记录 做 进一步 的 分 析 ， 可 以 在 “: 生 成 的 ”节点 之 后 添加 其 他 建 模 节 点 来 


第 7 章 统计 模型 


区 -线性 回归 


1. 基本 概念 


客观 事物 相互 依存 ， 且 具有 存在 和 发 展 的 内 在 关联 。 这 种 关联 反映 在 数据 上 ， 就 表 
现 为 变量 和 变量 之 间 的 关系 。 通 常 ， 变 量 之 间 的 关系 可 以 划分 为 两 类 : 

@ 完全 确定 的 函数 关系 。 如果 一 个 变量 ? 的 取 值 可 以 通过 另 一 个 变量 x 或 者 一 组 变 
量 (xix2,…wp) 以 某 种 形式 唯一 地 确定 ， 则 它们 之 间 就 是 函数 关系 ， 表 示 为 天 Jo 或 者 
Ja)。 例 如 圆 面 积 与 圆 半径 的 关系 ， 就 是 函数 关系 。 

@) 非 确定 的 相关 关系 。 如 果 一 个 变量 y 的 取 值 受到 另 一 个 变量 x 或 者 一 组 变量 (xl， 
xp) 的 影响 ， 但 给 定 x 或 者 (xzux…2o) 的 值 时 ，? 的 取 值 并 不 是 唯一 确定 的 ， 那 
么 变量 与 x 或 (xux,…2p) 之 间 为 相关 关系 ， 表 示 为 Je.8) 或 者 J 天 Ce 2p, 5)。 
例如 收入 与 支出 之 间 的 关系 ， 两 个 收入 相同 的 人 ， 他 们 的 支出 往往 是 不 同 的 ， 但 即便 如 
此 ， 从 宏观 上 来 看 ， 收 入 和 支出 之 间 又 是 有 一 定 关 联 的 ， 这 种 关系 就 是 相关 关系 。 

自然 现象 和 社会 现象 中 的 变量 关系 ， 大 量 地 表现 为 相关 关系 。 线 性 回归 分 析 正 是 一 
种 用 于 发 现 变量 之 间 相 关 关 系 的 统计 学 方法 , 目的 是 根据 现 有 的 数据 构建 线性 回归 模型 ， 
使 之 能 够 用 于 对 未 来 趋势 的 预测 。 

如 果 变量 之 间 存 在 某 种 线性 的 相关 关系 ， 则 可 以 用 线性 回归 模型 来 表示 ; 

y=P +Bat+pPx ++PBxp+e 

这 里 ，xixx2,…wp 称 为 自 变量 (解释 变量 ); y 称 为 因 变量 (被 解释 变量 )，se 称 为 误 
差 项 ， 是 一 个 随机 变量 ， 反 映 了 其 他 随机 因素 对 y 的 影响 。 

在 一 个 线性 回归 模型 中 ， 如 果 只 有 一 个 自 变量 ， 则 称 为 一 元 线性 回归 模型 ， 如 果 存 
在 多 个 自 变量 ， 则 称 为 多 元 线性 回归 模型 。 

对 于 误差 项 es， 有 3 个 基本 的 假定 : 

@ 误差 项 s 是 一 个 期 望 值 为 零 的 随机 变量 ， 即 E(e)=0。 也 就 是 说 ， 对 于 给 定 的 
xu 的 值 ，y 的 期 望 值 为 :ECY)= B+Brt+x+…+ PB,x, ， 该 式 也 称 为 多 元 回 
归 方 程 。 

@ 对 于 自 变 量 xix2,…wp 的 所 有 值 ，e 的 方差 o? 都 相同 ， 即 每 个 样本 的 误差 项 的 方 
差 均 为 ao? 。 
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@ 误差 项 s 服从 正 态 分 布 ， 即 =~ N(0,a?) ， 且 每 个 样本 的 误差 项 相互 独立 。 正 态 
性 意味 着 因 变量 》 也 是 一 个 服从 正 态 分 布 的 随机 变量 ， 独 立 性 则 意味 着 每 个 样本 的 误差 
项 是 不 相关 的 。 

由 于 回归 方程 中 的 参数 刀 、B、…、P, 是 总 体 回归 参数 ， 往 往 是 未 知 的 。 这 就 需 
要 利用 样本 数据 去 估计 它们 。 当 用 样本 统计 量 记 、 房 、…、 永 去 估计 回归 方程 中 的 未 
知 参 数 房 、 忆 、…、 思 时 ， 就 得 到 了 估计 的 多 元 回归 方程 

了 = 记 +Batphr t+.+ px 

其 中 ， 上 是 因 变量 y 的 估计 值 ， 房 、 房 、…、 房 分 别 为 参数 房 、 肥 、…、 忆 的 
估计 值 。 访 、…、 记 称 为 偏 回归 系数 ， 房 二 1,2,…,p) 的 含义 是 ， 当 其 他 自 变量 不 变 
时 ， 太 每 变动 一 个 单位 导致 因 变 量 y 的 平均 变动 量 。 
因此 ， 回 归 分 析 首先 要 根据 样本 数据 求 出 房 、 房 、…、 记 的 值 ， 即 参数 估计 ， 从 
而 建立 回归 模型 ， 然 后 还 要 对 模型 进行 评估 和 检验 。 

2. 参数 估计 

最 常用 的 参数 估计 方法 是 最 小 二 乘法 。 

对 于 第 i 个 样本 ， 变 量 y 的 估计 值 可 以 表示 为 : 

六 = 记 +Bn + 局 tt Bx, 
把 样本 i 的 变量 y 的 实际 观测 值 志 与 估计 值 和 之 间 的 差 称 为 残 差 ， 即 : 
@=y— 

为 了 使 得 求 出 的 回归 方程 能 够 最 好 地 拟 合 所 有 的 样本 ， 最 后 求 出 的 估计 参数 必须 能 

够 让 所 有 样本 的 残 差 的 平方 和 尽 可 能 的 小 ， 这 正 是 最 小 二 乘法 的 基本 原理 ， 即 
2= 了 0 -了 = 开 0,- 记 -ha - 记 wo 一 …- 启 x,) = 最 小 

根据 微 积分 的 极 值 定理 ， 对 8 求 相 应 于 各 估计 参数 的 偏 导数 并 令 其 等 于 零 ， 这 样 构 

成 一 个 方程 组 ， 便 可 求 出 各 估计 参数 : 


0 - 
ap, lu- 一 


600 _ 
0B ls-a=0 


例如 对 于 一 元 回归 方程 3= 房 + 房 xz ， 用 最 小 二 乘法 可 求 出 其 估计 参数 : 
加 ns -yy 
记 = i=l - 一 i=l 

no -OO) 


记 = 了 -A7 
其 中 ，n 是 样本 数量 ， 了 是 变量 y 的 均值 ，* 是 变量 x 的 均值 。 


(=12.…,7) 


统计 模型 


3. 回归 方程 的 拟 合 优 度 


估计 的 回归 方程 在 一 定 程度 上 描述 了 因 变 量 与 自 变量 之 间 的 数量 关系 ， 根 据 这 一 方 
程 ， 可 以 根据 自 变量 的 取 值 来 预测 因 变 量 的 取 值 。 但 预测 的 精度 如 何 则 取决 于 回归 方程 
对 观测 数据 的 拟 合 优 度 (Goodness of Fit)， 或 者 说 ， 拟 合 优 度 表示 了 所 有 的 观测 样本 究 
竟 在 多 大 程度 上 满足 估计 的 回归 方程 。 
(1) 判定 系数 
例如 一 个 一 元 回归 方程 表示 了 一 条 直线 ， 如 果 所 有 的 观测 样本 点 都 紧密 围绕 在 回归 
直线 周围 ， 就 说 明 该 回归 方程 的 拟 合 优 度 很 好 。 在 统计 学 中 ， 回 归 方程 的 拟 合 优 度 是 用 
“判定 系数 ”(Coefficient of Determination) 来 度量 的 。 
由 于 自 变 量 的 取 值 不 同 ， 以 及 其 他 随机 的 因素 ， 导 致 了 每 个 样本 的 因 变 量 y 的 值 会 
有 所 不 同 ， 把 这 种 波动 称 为 “ 变 差 ”对 于 一 个 具体 的 样本 来 说 ， 其 变 差 的 大 小 可 以 用 实 
际 观测 值 y 与 其 均值 了 之 差 (7- 了) 来 表示 。 那 么 ，7 个 样本 的 总 变 差 可 由 所 有 变 差 的 平 
方 和 来 表示 ， 称 为 “总 平方 和 ”(Total Sum of Squares)， 记 做 TSS: 

TSS= > ,0-7) 


i=1 


可 以 证 明 ， 
> -7 三 > (7 - 坟 》 二 2 = 
i I 过 


其 中 ，2 (和 一 玉 * 反映 了 y 的 总 变 差 中 由 于 各 自 变量 与 之 间 的 线性 关系 引起 的 了 
i=1 
的 变化 部 分 , 它 是 可 以 由 回归 方程 来 解释 的 变 差 部 分 , 称 为 “回归 平方 和 ”(Explained Sum 
of Squares)， 记 做 ESS。 另 一 部 分 > (0 一声) 是 各 样本 实际 观测 值 与 回归 值 之 间 的 残 差 
i=1 


(一 六) 平方 和 , 它 是 由 其 他 随机 因素 导致 的 y 的 变 差 , 是 不 能 由 回归 方程 来 解释 的 变 差 
部 分 ， 称 为 “ 残 差 平方 和 ”(Residual Sum of Squares)， 记 做 RSS。 
因此 有 : TSS=RSS+ESS 。 


显然 ， 回 归 方程 拟 合 程度 的 大 小 ， 就 看 ESS 在 TSS 中 所 占 的 比例 大 小 ,将 这 个 比例 
定义 为 “判定 系数 ”， 记 做 RR: 
了 = ee = 
TR 
2.0; -7) .0-7 


RR 的 取 值 范 围 是 [0,1]。R 越 接近 于 1， 表 示 拟 合 程度 越 好 ， 反 之 ，R 越 接近 于 0， 
表示 拟 合 程度 越 差 。 

(2) 修正 的 判定 系数 

在 应 用 过 程 中 ， 人 们 发 现 随 着 模型 中 自 变量 的 增多 ， 判 定 系数 R 的 值 往往 会 变 大 ， 
从 而 增加 了 模型 的 解释 功能 ， 这 一 事实 已 经 在 理论 上 得 到 了 证 实 。 当 增加 自 变量 时 ， 会 
使 预测 误差 变 得 较 小 ， 从 而 减少 残 差 平方 和 RSS， 那 么 ESS 就 会 变 大 ， 从 而 使 丸 变 大 。 
这 就 给 入 们 一 种 错觉 要 是 模型 拟 合 得 好 ， 就 必须 增加 自 变量 。 但 是 ， 如 果 模 型 中 增加 
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一 个 自 变 量 ， 即 使 这 个 自 变量 在 统计 上 并 不 显著 ，R 也 会 变 大 。 因 此 ， 为 了 避免 增加 自 
变量 而 高 估 了 R*, 统计 学 家 提出 用 样本 容量 n 和 自 变量 的 个 数 p 去 修正 R, 计算 出 修正 
的 判定 系数 R? : 


R21 n—l 
n—p-l 

下 的 解释 与 RR 类似， 不同 的 是 ，R 同时 考虑 了 样本 容量 n 和 模型 中 参数 的 个 数 p 
的 影响 ， 这 就 使 得 天 的 值 永远 小 于 RR， 而 且 灵 的 值 不 会 由 于 模型 中 自 变量 数量 的 增加 
而 越 来 越 接近 1。 因 此 ， 在 多 元 回归 分 析 中 ， 通 常用 修正 的 判定 系数 。 

需要 注意 的 是 ， 修 正 的 判定 系数 天 有 可 能 为 负 值 ， 在 这 种 情况 下 ， 使 用 严 将 失去 
意义 ， 此 时 做 天 =0 处 理 。 因 此 ，R? 只 适用 于 因 变 量 y 与 自 变量 xux,…:z 的 整体 相关 
程度 比较 高 的 情况 。 

另外 ，R 的 平方 根 称 为 复 相 关系 数 ， 它 度量 了 因 变量 同 p 个 自 变量 的 相关 程度 。 

4. 显著 性 检验 


对 回归 方程 的 显著 性 检验 包括 两 个 方面 : 线性 关系 检验 和 回归 参数 检验 。 

(1) 线性 关系 的 显著 性 检验 

线性 关系 检验 也 称 总 体 显著 性 检验 ， 主 要 是 检验 因 变 量 同 多 个 自 变量 的 线性 关系 是 
和 否 显著 ， 即 检验 所 有 自 变量 对 因 变 量 的 “总 体 影响 ”是 否 显著 。 

线性 关系 显著 性 检验 的 具体 步骤 为 


(-R2) 


Ho: B=p,=*…=pP,=0 
到 : hh,,…, Pp 至 少 有 一 个 不 等 于 0 
第 二 步 : 计算 统计 量 F。 
由 于 服从 正 态 分布 , 根据 数理 统计 学 中 的 定义 , 六 的 一 组 样本 的 平方 和 服从 入 分 
布 ， 所 以 有 : 
ESS= 3% -7) ~ x (p) 
RSS= 30-B) ~x (n-p-l) 
即 回归 平方 和 、 残 差 平 方 和 分 布 服从 自由 度 为 p 和 自由 度 为 (n 一 p 一 1) 的 x? 分布 。 


ESS/ 
那么 根据 数理 统计 学 中 的 定义 ， 在 假设 鲍 成 立 的 条 件 下 ， 统 计量 = 


~ RSS/(n-p-l) 
从 分 子 自由 度 为 p 和 分 母 自 由 度 为 (n 一 p 一 1) 的 五 分 布 。 

根据 ESS 和 了 RSS， 计 算出 统计 量 五 的 值 。 

第 三 步 : 做 出 统计 决策 。 

给 定 显著 性 水 平 4=0.05， 根 据 分 子 自由 度 p 和 分 母 自由 度 为 (2- 忆 -1)， 查 下 分 布 
表 得 到 ,。 如 果 下 > 环 ,， 则 拒绝 原 假设 ， 说 明 回归 方程 线性 关系 显著 ;如果 F<Fo。， 则 
接受 原 假设 ， 说 明 回 归 方程 线性 关系 不 显著 。 在 利用 计算 机 软件 进行 计算 时 ， 也 可 以 根 
据 统计 量 环 和 两 个 自由 度 ， 求 出 显著 性 水 平 已 值 ， 如 果 书 值 <c ， 则 拒绝 原 假设 ; 如 果 
卫 值 a， 则 接受 原 假设 。 
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(2) 回归 参数 的 显著 性 检验 

如 果 回 归 方 程 通过 了 上 面 的 下 检验 ， 则 表示 方程 中 的 所 有 自 变 量 对 因 变 量 的 “总 体 
影响 ”是 显著 的 ， 但 这 并 不 意味 着 每 一 个 自 变量 对 因 变 量 都 有 重要 影响 ， 或 者 说 并 不 是 
每 个 自 变量 的 单独 影响 都 是 显著 的 。 事 实 上 ， 在 上 面 的 线性 关系 显著 性 检验 中 ， 只 要 有 
一 个 自 变 量 同 因 变 量 的 线性 关系 显著 , 玉 检 验 就 可 以 通过 。 

所 以 ， 回 归 参 数 的 显著 性 检验 就 是 对 每 个 回归 参数 分 布 进行 单独 的 检验 ， 它 主要 用 
于 检验 每 个 自 变量 对 因 变 量 的 影响 是 否 显著 。 如 果 某 个 自 变 量 没 有 通过 检验 ， 就 意味 着 
这 个 自 变量 对 因 变 量 的 影响 不 显著 ， 也 许 就 没有 必要 将 这 个 自 变量 放 入 回归 模型 中 了 。 

回归 参数 显著 性 检验 的 具体 步骤 为 : 

第 一 步 : 提出 假设 。 对 于 任意 参数 忆 (二 1,2…,p)， 有 


H,: B=0 
H: Bz#0 
第 二 步 : 计算 统计 量 如 
构造 统计 是 6 = 名， 其 中 ，sa 是 回归 参数 应 的 抽样 分 布 的 标准 差 ， 即 ; 
5 
Sy 


汪汪 


ER -x) 


这 里 ，s, 是 回归 模型 y= 局 + Bn+ 忆 x +…+ Bpxp + 中 误差 项 的 方差 o? 的 一 个 


舍 计 值 ， 5 = DEE -上 | 


可 以 证 明 ， 统 计量 万 服 从 自由 度 为 (np 一 1) 的 1 分 布 ， 即 fn 一 p 一 1)。 

第 三 步 : 做 出 统计 决策 。 

给 定 显 著 性 水 平 < =0.05, 根据 自由 度 (n 一 一 1), 查 1 分 布 表 得 到 ts 。 如 果 |#|> to,， 
则 拒绝 原 假设 ， 说 明 自 变量 x 对 因 变量 y 的 影响 显著 ; 如果 | 直 | 入 如 ， 则 接受 原 假设 
说 明 自 变 量 立 对 因 变 量 ? 的 影响 不 显著 。 在 利用 计算 机 软件 进行 计算 时 ， 也 可 以 根据 统 
计量 右 和 自由 度 2- 忆 -1， 求 出 显著 性 水 平 已 值 ， 如果 尸 值 <w ， 则 拒绝 原 假设 , 如 果 己 
值 >c， 则 接受 原 假设 。 


5. 标准 化 系数 


在 多 元 线性 回归 方程 中 ， 由 于 各 自 变量 的 单位 不 同 ， 得 到 的 回归 系数 也 就 有 不 同 的 
量 纲 。 因 此 ， 回 归 系 数 的 大 小 只 能 表明 自 变 量 与 因 变 量 在 数量 上 的 关系 ， 而 不 能 表示 各 
自 变量 在 回归 方程 中 的 重要 性 。 要 比较 各 个 自 变量 的 重要 性 ， 必 须 消除 单位 的 影响 。 为 
此 ， 在 做 线性 回归 时 需要 对 变量 值 做 标准 化 变换 ， 即 变量 值 减 去 其 均值 并 除 以 其 标准 差 
的 估计 ， 由 此 得 到 的 回归 系数 被 称 为 标准 化 系数 。 

标准 化 的 回归 模型 为 : 
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一 | 一 ZX; —T Ts 
$i pr 二 二 + 2 2 i 
oy, 0 Cu 


其 中 ，0, 是 因 变量 y 的 标准 差 ， 0, = 0, -了 ， 
0 是 自 变量 总 的 标准 差 ，c, = EY 为 样本 数量 。 


因 标 准 化 系数 没有 单位 ， 可 用 其 绝对 值 大 小 来 说 明 多 元 回归 模型 中 各 自 变量 的 相对 
重要 性 。 标 准 化 系数 的 含义 是 当 自 变量 增加 一 个 单位 时 ， 因 变量 增加 或 减少 的 单位 数 ， 
它 与 原来 未 标准 化 的 多 元 回归 系数 的 关系 为 : 


和 A， OO, 
pb = 太一 ， 计 1],2,…D 
® 


可 以 看 出 ， 标 准 化 系数 不 仅 与 自 变 量 的 回归 系数 有 关 ， 而 且 与 这 个 自 变量 的 波动 程 
度 〈 自 变量 的 标准 差 ) 有 关 。 


在 Clementine 中 ,一 元 或 多 元 线性 回归 分 析 由 回归 节点 5 锚 来 完成 , 它 采 用 最 小 二 乘 
法 来 根据 样本 数据 建立 回归 方程 。 注 意 ， 在 回归 模型 中 只 能 使 用 连续 型 字段 。 必 须 有 且 
仅 有 一 个 目标 字段 〈 输 出 字段 ， 因 变量 ) ， 但 可 以 有 一 个 或 多 个 预测 变量 〈 输 入 字段 ， 
自 变量 ) 。 方 向 为 “两 者 ”《〈 双 向 ) 或 “无 ”的 字段 将 被 忽略 。 

本 小 节 根据 数据 样本 集 来 建立 线性 回归 模型 。 数 据 样本 集 如 表 7-1 所 示 。 


表 7-1 训练 数据 样本 


样品 X1 X2 3 A 
1 0.4 53 158 64 
0.4 23 163 60 
3 3.1 19 37 71 
4 0.6 34 157 61 
和 4.7 24 59 54 
6 和 65 123 es 
7 9.4 44 46 81 
8 10.1 31 117 93 
9 11.6 29 173 93 
10 12.6 58 112 Sl 
11 10.9 37 111 76 
12 23.1 46 114 96 
13 23.1 50 134 77 
14 21.6 44 1 93 
15 23.1 56 168 95 
16 19 36 143 54 
17 26.8 58 202 168 
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数据 集 包 含 18 个 样本 ，4 个 变量 ， 其 中 变量 了 是 因 变量 , X1、X2 和 XX3 是 自 变 量 。 
数据 集 存 放 在 Excel 文件 “线性 回归 样本 .xls” 中 。 
完整 的 数据 流 如 图 7.1 所 示 。 


线性 回归 样本 .xls 类 型 


图 7.1 线性 回归 数据 流 


首先 ， 将 “数据 源 ” 中 的 Excel 节点 添加 到 数据 流 区 域 ， 并 将 “线性 回归 样本 .xls” 
文件 加 载 到 该 节点 。 

向 数据 流 中 添加 “类 型 ”节点 ， 并 建立 从 “线性 回归 样本 .xls” 节 点 到 “类 型 ”节点 
的 连接 。 打 开 “ 类 型 ”节点 的 编辑 窗口 ， 把 “样品 ”字段 的 方向 设置 为 “无 ” 即 该 字段 
不 参与 建 模 。 把 XIL、22 和 X3 的 方向 设置 为 “输入 ”， 成 为 自 变量 。 把 了 的 方向 设置 为 
“输出 ” 成 为 因 变量 。 然 后 单 击 “ 读 取 值 ”按钮 ， 如 图 7.2 所 示 。 


6 
-| 辆 et | > 计生 | 清除 值 | 清除 所 有 入 


字段 一 类 型 值 缺失 检查 方向 
镶 样 品 仙 范 转 [1.0,18.0] 无 无 
入 XI 人 少 范 围 [0.4,29.9] 无 NN 输入 
个 X2 人 少 范围 [19.0,65.0] 无 入 输入 
[Oe 人 少 范围 [37.0,202... 无 NN 输入 
坟 7 人 少 范围 [51.0,168... 无 加 输出 


人 @) 查看 当前 字段 C 〇 ) 查看 未 使 用 的 字段 设置 
类 型 | 格式 | 注解 


确定 || 取消 应 用 


图 7.2 设置 “类 型 ”节点 
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1. 使 用 “进入 法 ” 建 模 


向 数据 流 中 添加 “回归 ”节点 ， 建 立 从 “类 型 ”节点 到 “回归 ”节点 的 连接 ， 然 后 
对 “回归 ”节点 进行 设置 。 

首先 ， 在 节点 编辑 窗口 的 “注解 ”标签 下 ， 将 该 节点 的 名 称 “ 自 定义 ”为 “进入 ”。 

切换 到 “模型 ”标签 下 ， 设 置 如 图 7.3 所 示 。 


模型 名 称 : 〇 自动 自 定义 | 生成 的 -进入 
加 使用 分 区 数据 


方法 : 


[|] 将 常量 纳入 方程 式 


回 


回 


字段 | 模型 | 专家 | 分 析 | 注解 


图 7.3 建 模 的 基本 设置 


在 “模型 名 称 ” 的 选项 中 选择 “ 自 定义 ”， 并 在 文本 框 中 输入 “生成 的 -进入 ”， 这 是 
设置 即将 建立 的 线性 回归 模型 的 名 称 。 

单 击 “ 方 法 ”(method) 下 拉 列 表 框 ， 可 以 看 到 ， 有 4 种 建 模 的 方法 可 供 选择 : 

(1) 进入 法 (Enter) : 这 是 默认 的 方法 ， 该 方法 将 所 有 输入 字段 直接 纳入 方程 。 构 
建 模 型 时 不 进行 字段 选择 。 本 例 在 这 里 选择 “进入 法 ”。 

(2) 逐步 法 〈Stepwise) : 逐步 字段 选择 法 就 是 分 步 构建 方程 。 初 始 模型 是 可 能 的 
最 简单 模型 ， 方 程 中 没有 任何 输入 字段 。 每 个 步骤 会 对 尚未 添加 到 模型 中 的 输入 字段 进 
行 评估 ， 如 果 其 中 的 最 佳 输入 字段 对 模型 的 预测 能 力 有 显著 作用 ， 则 会 添加 该 字段 。 此 
外 ， 还 会 重新 评估 当前 包含 在 模型 中 的 输入 字段 ， 以 确定 能 和 否 在 不 对 模型 的 功能 造成 重 
大 减损 的 情况 下 删除 其 中 的 任何 字段 。 如 果 可 以 ， 则 会 将 其 删除 。 然 后 重复 此 过 程 ， 添 
加 并 /或 删除 其 他 字段 。 当 无 法 再 添加 任何 字段 来 改进 模型 ， 且 无 法 再 删除 任何 字段 而 不 
对 模型 功能 造成 减损 时 ， 最 终 模型 便 已 生成 。 

(3) 后 退 法 (Backwards) : 后 退 字段 选择 法 与 分 步 构建 模型 的 逐步 法 类 似 。 但 采 
用 这 种 方法 时 ， 初 始 模型 包含 作为 预测 变量 的 所 有 输入 字段 ， 只 能 从 模型 中 删除 字段 。 
对 模型 贡献 较 小 的 输入 字段 将 被 逐一 删除 ， 直 到 无 法 再 删除 任何 字段 而 不 对 模型 功能 ; 
成 重大 损害 ， 从 而 生成 最 终 模型 。 
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(4) 前 进 法 〈Forwards) : 前 进 法 与 后 退 法 是 相反 的 。 采 用 这 种 方法 ， 初 始 模型 是 
不 包含 任何 输入 字段 的 最 简单 模型 ， 只 能 向 模型 中 添加 字段 。 每 个 步骤 会 对 尚未 纳入 到 
模型 中 的 输入 字段 进行 检验 ， 看 它们 对 模型 的 改进 起 多 大 作用 ， 然 后 将 其 中 最 佳 的 字段 
添加 到 模型 中 。 当 无 法 再 添加 任何 字段 或 最 佳 备 选 字段 无 法 对 模型 产生 足够 的 改进 时 ， 
最 终 模型 便 已 生成 。 

勾 选 “将 常量 纳入 方程 式 ”(Include Constant In Equation) 复 选 枉 ， 此 选项 用 于 确 
定 结果 方程 式 是 否 将 包含 常数 项 。 在 大 多 数 情况 下 ， 应 将 此 选项 保持 为 选中 状态 。 如 果 
已 经 明确 地 知道 模型 中 的 常数 项 为 0， 则 不 勾 选 此 选项 。 

切换 到 “专家 ”标签 下 ， 在 “模式 ”的 选项 中 选择 “专家 ” 单 选 按钮 ， 即 可 对 建 模 
进行 高 级 设置 ， 如 图 7.4 所 示 。 


O 〇 简单 专家 
缺失 值 网 公使 用 完整 记录 


异常 值 容 差 


字段 | 模型 | 专家 | 分 析 | 注解 | 


图 7.4 建 模 的 高 级 设置 


缺失 值 (Missing Values) : 默认 勾 选 “ 仅 使 用 完整 记录 ” 复 选 框 ， 回 归 节 点 将 仅 使 
用 对 于 模型 中 使 用 的 所 有 字段 均 具 有 有 效 值 的 记录 。 如 果 有 很 多 缺失 数据 ， 可 以 取消 选 
中 “ 仅 使 用 完整 记录 ” 复 选 框 ，Clementine 将 尝试 使 用 尽 可 能 多 的 信息 来 估计 回归 模型 ， 
包括 其 中 一 些 字段 具有 缺失 值 的 记录 ， 但 在 某 些 情形 下 ， 以 这 种 方式 使 用 不 完整 记录 可 
能 会 在 估计 回归 方程 时 导致 计算 问题 。 

单 击 “输出 …” 按 钮 ， 弹 出 “线性 回归 : 高 级 输出 选项 ”对 话 框 ， 可 以 选择 在 生成 
的 模型 中 输出 哪些 统计 信息 ， 如 图 7.5 所 示 。 

其 中 : 

模型 拟 合 (Model Fit): 模型 拟 合 概要 信息 ， 包 括 拟 合 优 度 R。 

回归 系数 《Regression Coefficients): 回归 系数 的 相关 统计 量 。 

了 及 平方 改变 量 (R squared Change): R 在 逐步 、 前 进 和 后 退 估计 法 的 每 个 步骤 中 的 
改变 量 。 
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令 线性 回归 :高 级 输出 选项 区 | 
回 模型 拟 合 加 回归 系数 

口 R 平 方 疏 变量 口 ] 置信 区 间 

门 选择 标准 口 协 方差 矩阵 


由 描述 性 分 析 口 排除 字段 
由 部 分 相关 和 偏 相关 残 差 
[| 共 线 性 诊断 器 Durbin-watson 


图 7.5 “线性 回归 : 高 级 输出 选项 ”对 话 框 


置信 区 间 (Confidence Interval): 方程 式 中 每 个 回归 系数 的 95% 置 信 区 间 。 

选择 标准 《Selection Criteria): 用 于 针对 模型 的 每 个 步骤 估计 模型 的 信息 内 容 〈 以 
帮助 评估 模型 改进 情况 ) 的 统计 量 。 这 些 统计 量 包 括 AIC 信息 准则 (Akaike Information 
Criterion)、Amemiya 预测 标准 (Amemiya'"s Prediction Criterion)、Mallows 预测 标准 
(Mallows’ Prediction Criterion) 和 SBC 标准 (Schwarz Bayesian Criterion ) 。 

协 方差 矩阵 〈Covariance Matrix): 输入 字段 的 协 方差 矩阵 。 

描述 性 分 析 (Descriptives): 有 关 输入 和 输出 字段 的 基本 描述 性 统计 量 。 

排除 字段 (Exclude Fields): 曾 被 考虑 包括 在 模型 中 但 根据 所 用 的 选择 方法 〈 逐 步 
法 、 后 退 法 等 ) 最 终 被 拒绝 的 字段 的 相关 统计 量 。 

部 分 相关 和 偏 相 关 (Part And Partial Correlations): 帮助 确定 各 个 输入 字段 对 模型 
的 重要 性 和 独 有 贡献 的 统计 量 。 

残 差 (Residuals): 预测 值 与 实际 值 之 间 的 差异 。 

共 线 性 诊断 (Collinearity Diagnostics): 用 于 找 出 因 多 余 输入 字段 引起 的 问题 的 统 
计量 。 
Durbin-Watson: 自 相 关 的 Durbin-Watson 检验 。 检 验 记录 顺序 对 回归 模型 的 影响 。 
以 上 设置 完成 后 ， 单 击 “ 执 行 ”按钮 ， 即 可 在 管理 器 窗口 的 “模型 ”标签 下 显示 “ 生 
成 的 -进入 ”模型 。 


2. 自动 选择 变量 建 模 


当 采 用 逐步 法 、 后 退 法 或 者 前 进 法 建 模 时 , 将 根据 某 些 设置 来 对 输入 变量 进行 筛选 ， 
选择 那些 对 因 变 量 影响 显著 的 自 变量 来 建 模 。 在 建 模 的 过 程 中 , 有 可 能 将 模型 中 己 有 的 
变量 移 除 ， 也 可 能 将 模型 中 没有 的 变量 纳入 到 模型 中 来 。 

由 用 户 自行 设 定 “ 移 除 标 准 ” 值 和 “纳入 标准 ” 值 。 当 要 对 某 个 自 变量 进行 取舍 
时 ， 计 算 统 计量 F-to-enterk 和 下 -to-remover 的 值 。 

对 于 一 个 目前 未 被 纳入 到 模型 中 的 自 变 量 ， 如 果 其 F-to-entert 大 于 “纳入 标准 ” 值 ， 
则 将 其 纳入 到 模型 中 来 。 


统计 模型 


对 于 一 个 目前 已 被 纳入 到 模型 中 的 自 变量 ， 如 果 其 F-to-removek 小 于 “ 移 除 标准 ” 
值 ， 则 将 其 从 模型 中 移 除 。 
下 面 介 绍 F-to-enterk 和 下 -to-removex 的 计算 方法 : 
对 于 一 个 回归 模型 : 
下 三 局 十 局 志 十 放款 十 二 Do 生病 
可 以 计算 出 任意 两 个 变量 之 间 的 相关 系数 并 构成 相关 系数 矩阵 : 


人 Ny 
Yh Dp Dy 
例如 ris 表示 变量 x 和 x 的 相关 系数 ，ryy 表 示 变 量 x1 和 y 的 相关 系数 。 


> ==D 


对 于 任意 两 个 变量 x 和 y， 它 们 的 相关 系数 为 加 0 
/Ce ™) 2.0:— 
对 于 尚未 纳入 到 模型 中 的 变量 xk， 如 果 同 时 满足 以 下 3 个 条 件 ， 它 将 被 纳入 到 模 
型 中 : 
(1) ra>t， 这 里 1 是 “异常 值 容忍 度 ”(Singularity Tolerance)， 由 用 户 自行 设 定 ， 默 
认 值 为 0.0001。 


(2) 对 于 模 下 所 有 忆 有 的 变量 | 2 | 1。 这 个 条 伯 全 得 的 加 入 不 会 
有 的 才 相 闪 生得 客 各 放 下 直到 -一人 不 风机 的 程度 。 


(C- 
(3) E-to-enter = 本 大 于 “纳入 标准 ” 值 。 这里, C 是 有 效 样本 的 数量 ， 
和 


p* 是 回归 模型 中 系数 的 数量 ， je 由 于 这 里 的 统计 量 F-to-enterx 服 从 自由 度 为 1 


I 
和 (CC 一 p*-]) 的 下 分 布 ， 因 此 也 可 以 把 “纳入 标准 ”设置 为 概率 闵 值 ， 根 据 F-to-enterx 
求 出 相应 的 p 值 ， 如 果 p 值 小 于 概率 闽 值 ， 则 将 变量 纳入 。 
_(C-pP)IN| 


对 于 已 经 被 纳入 到 模型 中 的 变量 xb 如 果 下 -to-remove; = 一 一 一 一 夺 小 于 “ 移 除 ” 
Dy 


标准 值 ， 该 变量 将 被 从 模型 中 移 除 。 由 于 这 里 的 统计 量 F-to-remover 服从 自由 度 为 1 和 
(Cp*) 的 下 分 布 , 因 此 也 可 以 把 “纳入 标准 ”设置 为 概率 阔 值 ， 根 据 F-to-enterx 求 出 
相应 的 p 值 ， 如 果 p 值 大 于 概率 闵 值 ， 则 将 变量 移 除 。 


下 面 以 前 进 法 为 例 来 说 明 这 一 过 程 。 

向 数据 流 中 添加 “回归 ”节点 ， 建 立 从 “类 型 ”节点 到 “回归 ”节点 的 连接 ， 然 后 
对 “回归 ” 节点 进行 设置 。 在 节点 编辑 窗口 的 “注解 ”标签 下 ， 将 该 节点 的 名 称 “ 自 定 

切换 到 “模型 ”标签 下 ， 将 建 模 方法 设置 为 “前 进 法 ”。 在 “模型 名 称 ”的 选项 中 选 
择 “ 自 定义 ”， 并 在 文本 框 中 输入 “生成 的 -前 进 ”， 这 是 设置 即将 建立 的 线性 回归 模型 的 
名 称 。 
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切换 到 “专家 ”标签 下 ， 可 以 对 “异常 值 容忍 度 ”(Singularity Tolerance) 进行 设置 ， 
它 用 于 指定 一 个 字段 独立 于 模型 中 其 他 字段 的 最 小 方差 比率 ， 这 就 是 上 面 提 到 的 参数 1 
默认 值 为 0.0001。 

单 击 “ 步 进 ...” 按 钮 可 以 打开 “线性 回归 : 步 进 标准 ”对 话 框 ， 如 图 7.6 所 示 。 


令 线性 回归 : 步 进 标准 
加 使 用 F 的 概率 纳入 : 0.05 | 向 移 除 : 


O 〇 ) 使 用 F 值 纳入 3.84 向 荐 除 


图 7.6 “线性 回归 : 步 进 标准 ”对 话 框 


选择 两 个 步 进 标准 中 的 一 个 ， 并 根据 需要 更 改 闵 值 ， 即 根据 下 统计 量 的 大 小 或 者 p 
值 来 确定 是 否 将 自 变量 纳入 模型 中 来 ， 或 者 将 自 变量 从 模型 中 移 除 。 显 然 ， 这 两 种 标准 
之 间 存 在 互 逆 关系 。 字 段 对 模型 越 重要 ，P 值 就 越 小 ， 而 下 值 则 越 大。 

使 用 下 的 概率 即 设置 上 面 提 到 的 概率 阔 值 ， 包 括 纳入 概率 阔 值 〈 采 用 逐步 法 和 前 
进 法 时 需要 设置 ) 和 移 除 概率 阔 值 〈 采 用 逐步 法 和 后 退 法 时 需 设 置 )。 

使 用 下 值 ， 即 设置 F-to-enterk 和 下 -to-removex 的 阔 值 。 

以 上 设置 完成 后 ， 单 击 “ 执 行 ”按钮 ， 即 可 在 管理 器 窗口 的 “模型 ”标签 下 显示 “ 生 
成 的 -前 进 ” 模 型 。 


3. 浏览 模型 


右 击 管理 器 窗口 的 “模型 ”标签 下 的 “生成 的 -进入 ”模型 ， 选 择 “浏览 ” 可 以 打 
开 模型 的 浏览 窗口 ， 该 窗口 显示 了 采用 进入 法 所 生成 回归 模型 的 信息 细节 ， 在 “模型 ” 
标签 下 ， 显 示 了 变量 重要 性 ; 在 “汇总 ”标签 下 ， 显 示 了 本 次 建 模 的 结果 和 信息 概要 ， 
如 图 7.7 所 示 。 


国文 件 ” 妇 生成 ”多 视图 3 


| 卫生 折 委 全 部 | 名 展开 全 部 
日记 分 析 
tH X1*1.785+ 

X2*-0.0834+ 

X3*0.1611+ 

43.65 
由 -外 字段 
由 -外 构建 设置 
由 -向 训练 汇总 


模型 || 汇总 || 高 级 | 注解 


7.7 “生成 的 -进入 ”模型 汇总 信息 
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从 “分 析 ” 中 显示 的 估计 参数 的 值 ， 可 以 得 到 最 终 的 回归 模型 为 : 


y=43.65+1.785x, —0.0834x, +0.161lx, +& 


在 窗口 的 “高 级 ”标签 下 ， 通 过 “模型 摘要 ”ANOVA 和 “系数 ”等 表格 ， 显 示 了 


本 次 建 模 过 程 中 的 细节 信息 。 
“模型 摘要 ”如 图 7.8 所 示 。 
模型 | R “|R 方 | 调整 的 RR 方 | 估计 的 标准 差 
1|.741G) | .549| .453 19.97051 
a 预测 变量 (常量 ), X3, X1, X2。 


图 7.8 ”模型 摘要 


从 中 可 以 看 出 ， 判 定 系 数 R=0.549; 调整 的 判定 系数 为 0.453; 
19.97051。 
ANOVA 如 图 7.9 所 示 。 


模型 平方 和 | 此 | 均 方 | F | 显著 性 
回归 | 6806.111 | 3|2268.704 |5.689 | .009Cb) 
1 | 残 差 | 5583.500 |14 | 398 821 | 
合计 |12389.611 |17 | 
a. 因 变 量 : Y 
b. 预测 变量 (常量 ), X3, X1, X2。 


图 7.9 ANOVA 


估计 的 标准 差 9 = 


可 以 看 出 ， 回 归 平方 和 ESS =6806.111， 自 由 度 为 3， 均 方 为 6806.111/3=2268.704; 


残 差 平 方 和 RSS =5583.5， 自 由 度 为 14， 均 方 为 5583.5/14=398.821; 


总 平方 和 TSS= 


RSS+ESS =12389.611; 线性 关系 显著 性 检验 的 统计 量 三 5.689， 对 应 的 p 值 为 0.009， 小 


于 0.05， 说 明 回归 方程 的 线性 关系 显著 。 
“系数 ”表格 如 图 7.10 所 示 。 


到 到 
Ci er rn i 
Ee ee i ee 


le 


a 因 变量 : Y 


7.10 估计 参数 
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图 7.10 中 列 出 了 参数 的 估计 量 及 相应 的 标准 误差 ， 参 数 估计 量 的 标准 误差 越 小 ， 则 
估计 值 与 真实 值 的 误差 就 越 小 。 从 回归 参数 的 显著 性 检验 来 看 , 页 和 下 对 因 变 量 了 的 影 
响 不 显著 ,它们 的 1 统计 量 所 对 应 的 p 值 均 大 于 0.05。 

所 以 ,在 采用 “前 进 法 ”生成 的 模型 “生成 的 -前 进 ” 中 ,通过 浏览 该 模型 可 以 发 现 ， 
生成 的 模型 中 只 保留 了 自 变量 久 。 

对 于 所 有 生成 的 回归 模型 ， 可 以 用 于 根据 自 变量 的 值 来 预测 因 变 量 的 值 。 例 如 ， 将 
“生成 的 -进入 ”模型 拖 入 数据 流 区 域 ， 并 建立 从 “类 型 ”节点 到 “生成 的 -进入 ”节点 的 
连接 ， 然 后 在 “生成 的 -进入 ”节点 后 面 添加 “ 表 ” 节 点 ， 执 行 该 “ 表 ” 节 点 ， 即 可 生成 
预测 结果 ， 如 图 7.11 所 示 。 


国 表 (6 个 字段 ，18 条 记录 ) 好 1 
国文 件 虽 ”号 编 辑 晤 要 生成 (G) 


| 
0 0400 53.000 158.000 64.000 
0.400 23.000 163.000 60.000 eal 
3000 3.100 19.000 37.000 71.000 59562 
4000 0.600 34.000 157.000 61.000M eras 


4.700 24.000 59.000 54.0000 59546 
1.700 65.000 123.000 77.000 Gross 
9.400 44.000 46.000 81. 000 Mee 


图 7.11 基于 回归 模型 的 预测 结果 
在 $E-Y 一 列 中 ， 显 示 了 基于 回归 模型 的 预测 结果 


二 项 Logistic 回归 


线性 回归 模型 的 一 个 局 限 性 是 要 求 因 变 量 和 自 变 量 都 是 连续 型 变量 〈 定 距 变 量 、 定 
比 变量 )， 而 不 能 是 离散 型 变量 〈 定 序 变 量 、 定 类 变量 )。 但 是 在 许多 实际 问题 中 ， 经 党 
出 现 因 变 量 或 自 变量 是 离散 型 变量 (分 类 变量 ) 的 情况 , 例如 要 研究 因 变量 “购买 汽车 ” 
es 它 只 有 两 个 取 值 ， 即 “ 买 ”和 “不 买 ”， 这 个 因 变 量 可 
能 与 自 变量 “性 别 ” 相 关 ， 这 个 自 变 量 也 是 一 个 离散 型 变量 ， 它 的 两 个 取 值 是 “ 男 ” 和 
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“ 女 ” 显然 , 当 遇 到 此 类 问题 的 时 候 , 线性 回归 方法 就 不 再 适用 了 。 这 时 可 以 采用 Logistic 
回归 分 析 方 法 。 

Logistic 回归 分 析 根 据 因 变 量 取 值 类 别 不 同 ， 又 可 以 分 为 二 项 Logistic 回归 (二 分 类 
Logistic 回归 ，Binary Logistic 回归 ) 分 析 和 多 项 Logistic 回归 (多 分 类 Logistic 回归 ， 
Multinomial Logistic 回归 ) 分 析 ， 二 项 Logistic 回归 模型 中 因 变 量 只 能 取 两 个 值 , 分 别 用 
1 和 0 来 表示 ,而 多 项 Logistic 回归 模型 中 因 变量 可 以 取 多 个 值 。 本 节 只 讨论 二 项 Logistic 
回归 。 

对 于 一 个 取 值 为 0 和 1 的 因 变 量 y， 可 以 采用 多 种 方法 来 对 其 进行 分 析 。 通 常 以 p 
表示 y=1 的 概率 (事件 发 生 的 概率 ) ，1-p 表示 y=0 的 概率 (事件 不 发 生 的 概率 ) ， 并 
把 p 看 做 自 变量 坟 的 线性 函数 ， 即 p=P(y=])=F(B%)， 二 1,2,…,k。 不 同形 式 的 F(，*)， 
就 有 不 同形 式 的 模型 ， 最 简单 的 莫 过 于 使 本 ，) 为 一 线性 函数 ， 即 : 

P=P+Batpx t+Px te 
因此 ， 所 研究 的 因 变量 由 y 变 成 了 p， 即 要 研究 因 变量 p 与 自 变 量 x 之 间 的 线性 关 
系 。 但 是 ， 由 于 pp 的 值 一 定 在 区 间 [0,1] 内 ， 而 且 当 pp 接近 于 0 或 1 时 ， 自 变量 即使 有 很 
大 变化 ，p 的 值 也 不 可 能 变化 很 大 ， 所 以 对 上 式 直接 用 普通 最 小 二 乘法 进行 参数 估计 是 
行 不 通 的 。 

从 数学 上 看 ， 函 数 p 对 x 的 变化 在 p=0 或 p=1 的 附近 是 不 敏感 的 、 缓 慢 的 ， 且 非 线 
性 的 程度 较 高 。 于 是 要 寻求 一 个 p 的 函数 0(p)， 使 得 它 在 p=0 或 p=1 附近 时 变化 幅度 较 
大 ， 而 函数 的 形式 又 不 是 很 复杂 。 因 此 ， 引 入 p 的 Logistic 变换 (或 称 为 p 的 Logit 变 
换 ) ， 即 ; 


0(p) =logit(p) = 中 证 | 
= 多 
其 中 ,入 称 为 “发 生 比 ”或 者 “相对 风险 ”。 
经 过 Logit 变换 之 后 ， 就 可 以 利用 一 般 线 性 回归 模型 建立 因 变量 9(p) 与 自 变量 之 
间 的 线性 关系 模型 : 


op -hE -Bt t prs tt pote 


现在 ， 首 先 要 根据 样本 数据 ， 对 上 式 中 的 参数 及 进行 参数 估计 ， 从 而 建立 Logistic 
回归 模型 ， 然 后 还 要 对 模型 进行 评估 和 检验 。 最 后 ， 应 用 所 建立 的 模型 ， 可 以 根据 回归 
方程 ， 预 测 给 定 样本 的 因 变量 }=1 的 概率 进行 预测 。p 值 的 计算 如 下 : 
根据 回 肯 广 各 [如 |= 局 + Bs +B ++ 有 er ， 
= 于 = 
eBtPAtPrt-+P 


从 而 可 推出 p 值 为 : | 


二 ETAGTROTTRE 
2. 参数 估计 


由 于 Logistic 回归 模型 的 残 差 不 再 服从 正 态 分 布 ， 而 是 二 值 离散 型 分 布 ， 所 以 采用 
极 大 似 然 估 计 法 对 模型 的 参数 进行 估计 。 
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首先 建立 似 然 函数 工 : 


”ehtAntprt-+Pen 


L=[ 1 一 mesmorrmw， 其 中 ,nn 是 样本 数量 


二 十 @PotPathar t+-+Pe 
对 上 式 两 边 取 对 数 得 到 : 
Pot+PatPryt++Pe 
(es > RD 
然后 分 别 对 局 , B,…, 有 i 求 偏 导 并 令 : 
olnL olnL olnL 
———=0, ——=0, -., = 得 
5h, 5h 8. 
通过 上 述 方程 组 求解 ， 即 可 求 出 包 ,B,…, B 。 


3. 二 项 Logistic 回归 分 析 中 的 虚拟 变量 


在 二 项 Logistic 回归 分 析 中 ， 如 果 有 些 自 变 量 为 定 类 或 者 定 序 的 离散 型 变量 ， 则 必 
须 将 其 转化 成 虚拟 变量 。 当 某 一 自 变 量 有 m 种 分 类 (m 个 取 值 ) 时 ， 需 要 设立 m-l 个 虚 
例如 ， 如 果 Logistic 回归 方程 中 这 5 局 + 十 成 + 十 帮 区 + 中 ,六 是 一 


个 二 分 变量 〈 取 值 为 “ 买 ”或 “ 卖 ” 或 者 “ 男 ” 或 “ 女 ”)， 那 么 将 其 转换 为 虚拟 变量 
中 ， 当 避 取 第 一 种 类 型 值 时 ，4d,=1;， 当 ; 取 第 二 种 类 型 值 时 ，4;=0。 这 时 Logistic 回归 
方程 变 成 了 : 


中 训 j=4+rma 1d +.+ Br te 


再 例如 ， 如 果 Logistic 回归 方程 中 ，xz 是 一 个 三 分 变量 ， 需 要 对 其 设置 两 个 虚拟 变 
量 qi 和 qd,， 这 时 Logistic 回归 方程 变 成 了 : 


o[ 吉 |- B+Bnt+pBd+pPBod;+..+ Bx: +e 
其 中 ， 当 吉 取 第 一 种 类 型 值 时 ，q1=1 和 qd;=0， 其 回归 方程 为 : 
ea +Bnt+Bithr +B +e 
当 避 取 第 二 种 类 型 值 时 ，q1=0 和 qs=1， 其 回归 方程 为 : 
[at +pB;+PBx .+BxX +E 
当 雹 取 第 三 种 类 型 值 时 ，q1=0 和 qd;=0， 其 回归 方程 为 : 
| 吉 上 PtAV+BD:…+B +s 


4. 显著 性 检验 
对 Logistic 回归 方程 的 显著 性 检验 包括 两 个 方面 : 线性 关系 检验 和 回归 参数 检验 。 
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(1) 线性 关系 的 显著 性 检验 
Lagisie 国有 方程 线性 关系 的 显著 性 检验 的 目的 ， 是 检验 全 体 自 变 最 与 | Te] 的 


线性 关系 是 否 显著 。 
由 于 Logistic 回归 方程 求解 参数 是 采用 最 大 似 然 估计 方法 ， 因 此 对 回归 方程 的 显著 
性 也 通过 似 然 函数 值 来 判断 。 似 然 函数 值 是 在 假设 拟 合 模型 成 立 的 条 件 下 能 够 观测 到 这 
一 特定 样本 的 概率 。 极 大 似 然 函数 值 工 是 一 个 在 [0.1] 之 间 的 很 小 的 数 ， 对 工 取 对 数 后 得 
到 的 In(D) 必 然 小 于 0。 所 以 ， 通 常 将 工 取 对 数 后 再 乘 以 2， 即 -2 ln(D)。-2 ln(D) 越 大 意味 
着 回归 模型 的 似 然 值 越 小 , 模型 的 拟 合 程度 越 差 , -2In(Z) 越 小 意味 着 模型 的 似 然 值 越 大 ， 
似 然 值 越 接近 于 1， 拟 合 程度 越 好 ， 如 果 似 然 值 等 于 1， 则 表示 模型 完全 拟 合 了 观测 值 。 
在 检验 Logistic 回归 模型 时 ， 通 常 将 回归 模型 与 截 距 模型 相 比 较 。 所 谓 截 距 模型 是 
指 如 下 形式 的 模型 : 
Ih 人 = 局， 忆 为 常数 
该 模型 没有 引入 任何 自 变量 ， 它 的 似 然 值 最 小 ， 是 一 个 “不 好 ”的 模型 。 以 截 距 模 
型 作为 “基准 ”比较 当 模型 中 引入 了 自 变 量 后 新 的 模型 与 数据 的 拟 合 水 平 是 否 差别 显著 。 
如 果 差 别 越 大 ， 表 示 新 的 模型 越 有 效 。 
所 以 ， 线 性 关系 的 显著 性 检验 的 步骤 如 下 
第 一 步 ， 定 义 截 距 模型 ， 用 Zo 表 示 截 距 模型 的 似 然 值 。 
第 二 步 ， 对 于 所 要 检验 的 模型 ， 其 包含 有 若干 个 自 变量 ， 其 似 然 值 为 工 
第 三 步 :构造 对 数 似 然 比 的 统计 量 G?; 
G2 -2 Ej- Canr) -CnD 
近似 服从 光 分 布 ， 其 自由 度 为 检验 回归 模型 的 自 变量 的 个 数 
第 四 步 ， 提 出 假设 : 
Ho: B=P,=…=P= 
到 : Bp.P…Pi 至 A 一 个 不 等 于 0 


第 五 步 : 给 出 显著 性 水 平 w。 计算 似 然 比 卡 方 的 观测 值 C 和 对 应 的 p 值 。 如 果 G*< 
Xa(k)〈 即 p 值 大 于 等 于 显著 性 水 平 k )， 则 接受 零 假 设 ， 认 为 目前 方程 中 的 所 有 回归 系 


数 同时 为 零 ， 自 变量 人 人 5 之 问 的 线性 关系 不 旺 车: 如 果 G > za(k)( 即 p 值 
小 于 显著 性 水 平 c )， 则 拒绝 零 假 设 ， 认 为 目前 方程 中 的 所 有 回归 系数 不 同时 为 零 ， 自 变 
有 全 作 与 | 之 加 有 遇 必 关系 显 着 


(2) 回归 参数 的 显著 性 检验 
Logistic 回归 参数 的 显著 性 检验 的 目的 是 逐个 检验 模型 中 的 各 自 变量 是 否 与 


| 才 有 时 的 线性 关系， 对 名和 il 是 有 重要 责 机 
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回归 参数 显著 性 检验 的 具体 步骤 为 : 

第 一 步 : 提出 假设 。 对 于 任意 参数 让 〈 天 1.2…)， 有 
H,: B=0 

H: Bz0 


第 二 步 : 计算 Wald 统计 量 。 
Wa 统计 的 娄 学 定 是 ，wWald -| 盘 】， 其中 有 是 因数 5 是 标准 


A 
差 。Wald 统计 量 服从 自由 度 为 1 的 卡 方 分 布 。 
第 三 步 : 做 出 统计 决策 。 
计算 各 自 变 量 的 Wald 的 观测 值 和 对 应 的 概率 p 值 。 如 果 对 于 某 自 变量 , 计算 出 的 p 


值 小 于 给 定 的 显著 性 水 平 a , 则 拒绝 零 假设 , 认为 该 和 m1 之 问 的 关系 显 车 ， 
应 该 保留 在 回归 方程 中 ,如果 值 大 于 等 于 给 定 的 显著 性 水 平 w ， 则 接受 零 假设 ， 认 为 
该 自 变星 | 之 了 的 关系 不 显著 ， 不 应 该 保 全 在 回归 方程 中 


5. 回归 方程 的 拟 合 优 度 检验 


拟 合 优 度 表示 回归 方程 能 够 解释 因 变 量 的 变 差 的 程度 。 如 果 方 程 可 以 解释 因 变 量 的 
较 大 部 分 变 差 ， 则 说 明 拟 合 优 度 高 ， 反 之 则 拟 合 优 度 低 。 另 外 ， 也 可 以 从 回归 方程 的 预 
测 准确 度 来 衡量 其 拟 合 优 度 。 

常用 的 Logistic 回归 方程 的 拟 合 优 度 检验 方法 有 以 下 几 种 。 

(1) 基于 Cox & Snell R? 统 计量 的 优 度 检验 

Cox & Snell R? 与 一 般 线性 回归 分 析 中 的 民有 相似 之 处 ， 也 是 方程 对 因 变量 变 差 解 
释 程度 的 反映 。Cox & Snell R? 的 数学 定义 为 : 


Cox & Snell R? =1- 2) 


其 中 ，Lo 是 方程 中 只 包含 常数 项 时 的 似 然 函 数值 ，L 是 当前 方程 的 似 然 函 数值 ，n 
为 样本 数量 。 

Cox & Snell R* 的 取 值 范围 不 易 确定 ， 解 释 时 有 一 定 困难 。 

(2) 基于 Nagelkerke R* 统计 量 的 优 度 检验 

Nagelkerke R? 是 修正 的 Cox & Snell R?"， 也 反映 了 方程 对 因 变 量变 差 解释 的 程度 。 
Nagelkerke R- 的 数学 定义 为 : 


Nagelkerke R’ = 


Cox & Snell R’? 


1-(L)” 
Nagelkerke R* 的 取 值 范围 在 0 一 1 之 间 。 越 接近 于 1， 说 明 方程 的 拟 合 优 度 越 高 ， 越 
接近 于 0， 说 明 方 程 的 拟 合 优 度 越 低 。 
(3) 基于 错 分 类 表 的 优 度 检验 
分 类 表 是 一 种 非常 直观 的 评价 模型 的 方法 ， 它 通过 表格 的 形式 展现 了 预测 值 与 实际 
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观测 值 的 吻合 程度 。 分 类 表 的 一 般 形式 如 表 7-2 所 示 。 
表 7-2 分 类 表 


正确 率 百分比 


万 
f+ fo 
观测 
值 fo 
f+ fo 


f+ fy 
ft fot faut fo 


表 7-2 中 , 万 是 观测 值 为 0 预测 值 也 为 0 的 样本 数量 ，fiz 是 观测 值 为 0 但 预测 值 为 
1 的 样本 数量 ，. 户 是 观测 值 为 1 但 预测 值 为 0 的 样本 数量 ，f 是 观测 值 为 1 预测 值 也 为 
1 的 样本 数量 。 显 然 ， 正 确 率 百分比 越 高 ， 意 味 着 模型 越 好 。 


在 Clementine 中 ， 二 项 Logistic 回归 分 析 由 Logistic 节点 名 来 完成 ， 该 节点 也 可 以 
进行 多 项 Logistic 分 析 。 

在 利用 该 节点 进行 Logistic 回归 分 析 时 ， 必 须 指 定 一 个 或 多 个 预测 变量 (In 字段 ， 
即 自 变量 ) 和 唯一 一 个 分 类 目标 Out 字段， 即 因 变 量 ) 。 当 进行 二 项 Logistic 回归 分 析 
时 ， 目 标 字 段 必须 指定 为 标志 型 字段 。 方 向 为 “两 者 ”双向 ) 或 “无 ”的 字段 将 被 
忽略 。 

本 小 节 描述 一 个 根据 数据 样本 集 来 建立 Logistic 回归 模型 的 案例 ， 该 案例 参考 了 
Clementine 自 带 的 一 个 应 用 示例 。 某 电信 服务 提供 商 希 望 根据 客户 的 历史 数据 来 分 析 哪 
些 客户 有 可 能 流失 ， 以 及 客户 的 流失 与 哪些 因素 有 关 。 数 据 集 存 放 在 文件 telco.sav 中 ， 
该 文件 的 存放 路 径 为 ...Clementine12.0\Demos\telco.sav， 是 Clementine 的 自 带 文件 。 该 数 
据 集 包 括 region 地区)、tenure〔 服 务 的 月 数 )、age 年 龄 ) 以 及 churm (客户 流失 ) 等 
42 个 字段 ， 且 包含 有 1000 个 样本 记录 。 这 里 ，chum 字段 的 取 值 为 0 或 者 1， 其 中 “0” 
表示 没有 流失 ,“1” 表 示 流 失 。 以 chum 为 因 变量 ， 首 先 从 剩 下 41 个 字段 中 选择 出 最 
重要 的 若干 个 字段 作为 自 变量 ， 然 后 建立 Logistic 回归 模型 。 完 整 的 数据 流 如 图 7.12 
所 示 。 


1. 生成 模型 
首先 ， 将 “数据 源 ” 中 的 “SPSS 文件 ”节点 添加 到 数据 流 区 域 ， 并 将 telco.sav 文件 
加 载 到 该 节点 。 


向 数据 流 中 添加 “类 型 ”节点 ， 并 建立 从 telco.sav 节点 到 “类 型 ”节点 的 连接 。 打 
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开 “ 类 型 ” 节点 的 编辑 窗口 ， 将 chum 字段 的 类 型 设置 为 “标志 ”， 方 向 设置 为 “输出 ” 
成 为 因 变 量 。 然 后 单 击 “ 读 取 值 ”按钮 ， 如 图 7.13 所 示 。 


图 7.12 ”Logistic 回归 分 析 数 据 流 


[17491 
[273436.. 


logcard [1.01160... 
logwire 和 [2.70136... 
Inine 围 [2.19722... 
custcat ” 蚀 1,2,3,4 
1i0 


7.13 设置 “类 型 ”节点 


向 数据 流 中 添加 “特征 选择 ”节点 ， 建 立 从 “类 型 ”节点 到 “特征 选择 ”节点 的 连 
接 ， 然 后 打开 “特征 选择 ”节点 的 设置 窗口 进行 设置 。 
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在 “特征 选择 ”节点 设置 窗口 的 “模型 ”标签 下 ,“ 模 型 名 称 ” 选 择 “ 自 定义 ” 并 
在 文本 框 中 输入 “生成 的 -选择 ”并 对 “屏幕 字段 ”中 的 各 指标 的 阔 值 进行 相应 的 设置 ， 
如 图 7.14 所 示 。 


法拉 


模型 名 称 : CC) 自动 人 @) 自 定义 | 生成 的 -选择 


品 使 用 分 区 数据 
屏 大 字段 : 
品读 失 值 的 最 大 百分比 400 辣 (所 有 字段 ) 
回 单 个 类 别 中 记录 的 最 大 百分比 900 各 类 别 ) 
回 作为 记录 百分比 的 最 大 类 别 数 | 95. 晤 傣 别 ) 
可 最 小 变异 系数 01 上 向 仑 转 ) 
| 晤 小 标准 莽 00 周 仑 转 ) 


字段 | 模型 | 选项 | 注解 
执行 |[ 取消 | 应 用 || 重 轩 


图 7.14 特征 选择 节点 的 基本 设置 


在 “特征 选择 ”节点 设置 窗口 的 “选项 ”标签 中 的 设置 如 图 7.15 所 示 ， 即 选择 
importance 系数 大 于 0.999 的 字段 。 


li 


在 模式 中 选择 : (9) 所 有 排列 的 字段 
Y][ 重要 
十] 一般 重要 
*]| 不 重要 

O 〇 字段 总 数 

〇 重要 性 大 于 
芭 于 类 别 预 测 变量 的 p 值 重要 性 ) 
G Pearson 加 但 然 比 O 〇 克 莱 姆 系数 O Lambda 


图 7.15 ”特征 选择 节点 的 高 级 设置 
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单 击 “ 执 行 ” 按钮 ， 即 可 在 管理 器 窗口 的 “模型 ”标签 下 显示 “生成 的 -选择 ”模型 。 
右 击 该 模型 ， 在 快捷 菜单 中 选择 “浏览 ”命令 ， 即 可 打开 “生成 的 -选择 ”窗口 ， 在 窗口 
的 “生成 ”菜单 下 ， 选 择 “ 过 滤器 ”命令 ， 打 开 “ 根 据 特征 选择 生成 过 滤 ” 对 话 框 ， 选 
择 “ 包 括 ” 模 式 ， 并 选择 “所 有 标记 的 字段 ” 单 选 按钮 ， 勾 选 “ 重 要 ” 复 选 杠 ， 如 图 7.16 
所 示 。 然 后 单 击 “确定 ”按钮 ， 即 可 在 数据 流 区 域 生成 “( 已 生成 )?” 节 点 。 


全 根据 特征 选择 生成 过 洁 ”区 | 
神 式 : 。 回 包 括 。 〇 排除 
回 选 定 字段 
〇 所 有 标记 的 字段 
四 园 重 要 


口中 一 般 重 要 
回回 不 重要 


O 〇 ) 字段 总 数 10 
O 〇 ) 重要 性 大 于 : 0.667 自 


图 7.16 设置 字段 筛选 条 件 


建立 从 “类 型 ”车 点 到 “(已 生成 )” 节 点 之 间 的 连接 ， 用 以 对 字段 进行 筛选 (双击 
“(已 生成 )” 节 点 ， 在 弹出 的 窗口 中 可 以 看 到 ，20 个 相对 不 太 重 要 的 字段 已 被 过 滤 )。 

将 用 于 建 模 的 Logistic 节点 添加 到 数据 流 区 域 , 并 建立 从 “(已 生成 )” 节 点 到 Logistic 
节点 的 连接 ， 可 以 看 到 ，Logistic 节点 被 自动 命名 为 chum 节点 。 双 击 chum 节点 ， 打 开 
该 节点 的 设置 窗口 ， 在 该 窗口 的 “模型 ”标签 下 ， 将 “过 程 ”设置 为 “二 项 式 ” 如 图 
7.17 所 示 。 对 于 二 项 式 过 程 的 方法 ， 有 3 种 可 选 的 方法 〈 进 入 法 、 前 进 法 、 后 退 法 )。 

进入 法 : 这 是 默认 的 方法 ， 将 所 有 输入 字段 都 作为 回归 方程 中 的 自 变 量 ， 构 建 模型 
时 不 进行 字段 选择 。 

前 进 法 。 采 用 这 种 方法 ， 初 始 模型 是 最 简单 的 模型 (只 含有 常量 )， 每 个 步骤 会 对 尚 
未 纳入 到 模型 中 的 字段 进行 检验 ， 看 它们 对 模型 的 改进 起 多 大 作用 ， 然 后 将 其 中 的 最 佳 
字段 添加 到 模型 中 。 当 无 法 再 添加 任何 字段 或 最 佳 备 选 字段 无 法 对 模型 产生 足够 的 改进 
时 ， 最 终 模型 便 已 生成 。 

后 退 法 。 采 用 这 种 方法 时 ， 初 始 模 型 包含 所 有 输入 字段 ， 只 能 从 模型 中 删除 字段 。 
对 模型 贡献 较 小 的 字段 将 被 逐一 删除 ， 直 到 无 法 再 删除 任何 字段 而 不 对 模型 功能 造成 重 
大 损害 ， 从 而 生成 最 终 模型 。 

这 里 选择 “前 进 法 ”来 构建 模型 。 最 后 ， 勾 选 “ 将 常量 纳入 方程 式 ” 复 选 框 。 如 图 
7.17 所 示 。 


统计 模型 一 一 一 一 一 一 


© 


模型 名 称 : 9) 自动 〇 自 定义 
V] 使 用 分 区 数据 
过 程 : O 〇 多项式 四 二 项 式 


字段 名 称 对 比 基准 类 别 


[| 


可 将 常量 纳入 方程 式 
字段 | 模型 | 专家 | 分 析 | 注解 | 


Da 


图 7.17 “模型 ”标签 下 的 设置 


切换 到 “专家 ”标签 下 ， 在 “模式 ”的 选项 中 选择 “专家 ” 单 选 按钮 ， 即 可 对 建 模 
进行 高 级 设置 ， 如 图 7.18 所 示 。 


分 


模式 : 〇 简单 G@) 专家 

标尺 : 区 -| 值 阅 三 
vY] 追 加 所 有 概 : 
注意 -始终 为 二 项 式 过 程 添加 参考 和 目标 概率 


异常 值 容 差 :| 1.0E-8 v= 


字段 | 模型 专家 


7.18 ” 建 模 的 高 级 设置 
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在 Logistic 回归 :高 级 输出 


〇 每 个 步 又 


口 分 类 获 点 图 
口 exptB) 的 Cl(%) 


残 差 诊断 
人 @) 离 群 值 极限 (标准 差 ): 
〇 所 有 观测 值 


加) 最 后 步骤 
导 参数 估计 
口 HosmerLemeshow 拟 合 忧 度 


55 同 
2 辣 


图 7.19 “Logistic 回归 : 高 级 输出 ”对 话 框 


选择 “最 后 步骤 ” 单 选 按钮 ， 即 输出 最 后 的 结果 ， 


上” 按钮 ， 弹 出 “Logistic 回归 : 高 级 输出 ”对 话 框 ， 如 图 7.19 所 示 。 


而 不 必 输 出 中 间 过 程 。 勾 选 “ 参 


数 估计 ” 复 选 框 ， 其 他 选项 依 实际 需要 灵活 选择 。 其 中 ,“Hosmer-Lemeshow 拟 合 优 度 ” 
是 一 种 当 自 变量 较 多 且 多 是 定 距 型 变量 时 常用 的 拟 合 优 度 测度 方法 ;“exp(B) 的 CI(%)” 
复 选 框 用 来 设置 是 否 输 出 发 生 比 的 置信 区 间 。 男 外 ,Logistic 回归 中 还 可 以 进行 残 差分 析 ， 


这 里 不 再 袭 述 。 


以 上 设置 结束 后 ， 单 击 “ 确 定 ”按钮 。 最 后 ， 单 击 “ 执 行 ” 按 钮 ， 即 可 在 管理 器 窗 
口 的 “模型 ”标签 下 显示 生成 的 Logistic 回归 模型 chum。 


2.， 浏览 模型 


右 击 管理 器 窗口 的 “模型 ”标签 下 的 chum 模型 ， 选 择 “ 浏 览 ” 命 令 ， 可 以 打 


模 


型 的 浏览 窗口 ， 在 “汇总 ”标签 下 ， 显 示 了 本 次 建 模 的 信息 概要 ， 在 “高 级 ”标签 下 ， 
则 显示 了 更 加 详细 的 过 程 和 结果 。 首 先 显示 了 “案例 处 理 摘要 ”， 列 出 关于 样本 的 信息 。 
然后 显示 了 因 变 量 编码 以 及 分 类 变量 〈 离 散 型 自 变量 ) 编码 (转换 为 虚拟 变量 )。 最 后 给 
出 了 在 建 模 开始 和 建 模 结束 时 的 模型 ， 即 块 0 和 块 1。 

模型 系数 的 综合 检验 〈 即 模型 线性 关系 的 显著 性 检验 ) 结果 如 图 7.20 所 示 。 


7.20 ”模型 系数 的 综合 检验 


统计 模型 


可 以 看 出 ， 线 性 关系 显著 性 检验 的 卡 方 统计 量 为 264.261， 对 应 的 p 值 接 近 于 0， 小 
于 显著 性 水 平 0.05， 所 以 模型 的 线性 关系 显著 。 
拟 合 优 度 的 检验 结果 如 图 7.21 所 示 。 


步 又 -2 对 数 似 然 值 | Cox & SnellR 方 | NagelkerkeR 方 
| 9 910.133(a) .232 .336 


a. 因为 参数 估计 的 更 改 范围 小 于 .000， 所 以 估计 在 过 代 深 数 6 处 终止 。 


7.21 模型 摘要 


可 以 看 出 ，-2 对 数 似 然 值 为 910.133， 数 值 较 大 ， 相 应 的 似 然 值 则 较 小 ， 说 明 模 型 
的 拟 合 优 度 一 般 。 从 Cox & Snell R* 和 Nagelkerke R? 的 结果 也 印证 了 这 一 点 (Nagelkerke 
R 的 值 越 接近 于 1, 说 明 方 程 的 拟 合 优 度 越 高 ; 越 接近 于 0, 说 明 方程 的 拟 合 优 度 越 低 )。 

采用 模型 对 训练 样本 进行 预测 所 得 的 预测 分 类 表 如 图 7.22 所 示 。 


预测 值 


百分比 校正 


7.22 ”预测 分 类 表 


可 以 看 出 ， 模 型 的 正确 预测 率 为 79.1%。 对 于 本 案例 而 言 ， 更 关心 的 是 要 准确 地 预 
测 到 那些 流失 的 客户 ， 即 chum 的 观测 值 为 1 且 预 测 值 也 为 1 的 概率 ， 这 里 这 个 百分比 
为 47.1%。 也 就 是 说 , 通过 构建 出 的 Logistic 回归 模型 ， 可 以 成 功 地 预测 出 47.1% 的 可 能 
流失 的 客户 。 

参数 估计 的 结果 以 及 估计 参数 的 统计 特征 如 图 7.23 所 示 。 

可 以 看 出 ， 最 后 生成 的 回归 方程 包括 常量 和 8 个 变量 。 各 数据 项 的 含义 依次 为 : 

B: 回归 参数 ; 

S.E.: 回归 参数 的 标准 误差 ; 

Wald: Wald 检验 统计 量 的 观测 值 ; 

df: 自由 度 ; 

显著 性 :Wald 检验 统计 量 的 概率 p 值 ; 

Exp(B): 发 生 比 。 
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a 在 步骤 8 中 输入 的 变量 : Ininc. | 


图 7.23 方程 中 的 变量 
根据 这 些 信息 可 以 写 出 回归 方程 为 : 
nm[ 坟 | =-0.112— 0.037x tenure — 0.046x employ — 0.761x equip(]) + 0.947 x callcard(l) 


174 +0.017x cardmon — 0.494 x voice(l) — 0.538 x internet (1) + 0.294 x Ininc 
这 个 方程 即 可 用 于 根据 样本 的 自 变量 取 值 来 预测 因 变量 的 值 。 例如 , 将 生成 的 churn 
模型 拖 入 数据 流 区 域 , 并 建立 从 “: 生成 的 ”节点 到 该 节点 的 连接 , 然后 在 其 后 添加 “ 表 ” 
节点 ， 执 行 该 “ 表 ” 节 点 ， 即 可 生成 预测 结果 ， 如 图 7.24 所 示 。 


XH 二 _O4 太 国名 [S| 的 


ebill loglong| Ininc | custcat| chum| $L-churn| $LP-chum | $LP-0 | $LP-1 
1 1.308 4.159 1 1 0 0.779 “0779 0.221| 司 
站 0 1482 4913 4 1 0 0585 0.585 0.415| 
3 0 2899 4.754 引 0 0978 0.978 0.022| 
4 0 2246 3.497 1 1 0 0757 0.757 0.243 
5 0 1841 3.401 3 0 0 0.709 “ 0709 0.291 
6 0 2468 4357 3 0 0 0.933 0.933 0.067 
7 1 2389 2.944 2 1 0 0899 “0899 0101 
8 1 1800 4331 4 0 0 0573 “0573 0.427| 
0 2277 5112 3 0 0 0964 0.964 0036 
10 0 3184 4.277 3 下 0 0960 0.980 0020 
11 1 1579 4828 1 1 于 0.793 0.207 0.793| 
[3 0 1960 4382 3 0 0 0.661 0.661 0.339 
13 0 2146 3611 1 0 0 0885 0.885 0.115| 
14 1 2747 4745 4 1 0 0715 “0715 0.285 
15 0 1482 “3219 1 0 0 0671 “0671 0.329| 
16 | 0 1629 4.317 2 _ 0 0 0563 0.563 0437| 本 
1 带 » 
表 | 注解 


EH 
7.24 ”基于 Logistic 回归 模型 的 预测 结果 


可 以 看 到 ， 预 测 结果 在 原 有 的 数据 基础 上 ， 增 加 了 4 列 信息 。 其 中 ，$L-chur 是 对 
因 变量 预测 结果 (0 oe 1), $SLP-0 和 S$LP-1 分 别 是 因 变 量 的 值 为 “0” 和 “1” 的 概率 (给 
定 样本 的 各 自 变量 的 值 )。$LP-chum 是 $LP-0 和 $LP-1 中 的 大 者 。 


第 8 章 神经 网 络 
ED 神经 网 络 原 理 


人 工 神经 网 络 〈 简 称 神 经 网 络 ) 是 集 脑 科学 、 神 经 心理 学 和 信息 科学 等 多 学 科 的 交 
又 研究 领域 ， 是 近年 来 高 科技 领域 的 一 个 研究 热点 。 它 的 研究 目标 是 通过 研究 人 脑 的 组 
成 机 理 和 思维 方式 ， 探 索 人 类 智能 的 奥秘 ， 进 而 通过 模拟 人 脑 的 结构 和 工作 模式 ， 使 机 
器 具有 类 似 人 类 的 智能 。 它 已 在 模式 识别 、 机 器 学 习 、 专 家 系统 等 多 个 方面 得 到 应 用 ， 
成 为 人 工 智能 研究 中 的 活跃 领域 。 


神经 网 络 是 一 种 数学 模型 ， 它 试图 模拟 人 类 大 脑 的 功能 。 它 由 大 量 的 处 理 单元 “人 
工 神经 元 ) 通过 适当 的 方式 互 连 构成 ， 是 一 个 非 线 性 的 自 适应 系统 ， 用 于 智能 决策 或 
8.1 显示 了 一 个 用 于 预测 银行 客户 信用 度 的 神经 网 络 。 

性 别 : 
年 龄 : z 
教育 : 坟 


收入 : z 


消费 :x 


图 8.1 一 个 神经 网 络 的 例子 


图 中 ,x ，x2，…，xs 称 为 网 络 的 输入 信号 ，wn，wwpz，…，Wws2，wi3，Wwss 称 为 突 触 
权 值 ， 用 来 表示 各 个 输入 的 不 同 的 重要 程度 。 节 点 1、 节 点 2 和 节点 3 为 神经 元 。 

一 个 神经 网 络 分 为 若干 层 。 所 有 的 输入 信号 构成 了 输入 层 (Input Layer)， 这 是 神经 
网 络 的 第 一 层 ， 神 经 网 络 的 最 后 一 层 是 输出 层 (Output Layer)， 输 出 层 包 含 了 一 个 或 者 
多 个 神经 元 ， 如 图 8.1 中 的 节点 3; 在 输入 层 和 输出 层 之 间 的 层 ， 称 为 隐藏 层 (Hidden 
Layers)， 一 个 神经 网 络 可 以 包含 1 个 或 者 多 个 隐藏 层 ， 图 8.1 中 的 节点 1 和 节点 2 构成 
了 一 个 隐藏 层 。 

神经 网 络 的 训练 过 程 是 ， 首 先 构造 出 网 络 的 基本 结构 ， 并 初步 设 定 各 突 触 权 值 。 然 
后 将 训练 样本 带 入 网 络 中 ， 计 算 神经 网 络 的 输出 值 ， 比 较 网 络 输出 值 与 期 望 输出 值 之 间 
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的 误差 ， 然 后 对 各 突 触 权 值 进行 调整 ， 使 得 网 络 输出 值 与 期 望 输出 值 之 间 的 误差 最 小 。 
显然 ， 一 个 如 图 8.1 所 示 的 神经 网 络 被 训练 完成 之 后 ， 这 个 网 络 模型 即 可 用 于 对 新 


客户 信用 度 的 预测 。 这 也 正 是 神经 网 络 在 数据 挖掘 中 的 主要 应 用 方式 ， 即 用 了 


目标 字段 的 预测 或 者 分 类 。 


对 新 样本 


神经 网 络 的 结构 有 多 种 不 同 的 类 型 ， 但 无 论 何 种 神经 网 络 ， 其 基本 单元 都 是 具有 计 
算 能 力 的 神经 元 。 因 此 ， 要 构造 一 个 神经 网 络 系统 ， 首 要 任务 是 构造 神经 元 模型 。 


一 个 典型 的 神经 元 模型 如 图 8.2 所 示 。 


图 8.2 神经 元 模型 


神经 元 i 有 j 个 输入 ， 分 别 为 01,02，…,0; 这 j 个 输入 来 自 输入 层 的 节点 或 者 来 自前 
一 隐藏 层 中 与 神经 元 i 相连 的 j 个 神经 元 的 输出 。wiwz…,wy 分 别 是 j 个 输入 的 突 触 权 


值 。vi 是 j 个 输入 的 加 权 和 。 oa() 称 为 激活 函数 。ai; 是 神经 元 i 的 输出 ， 所 以 
a; =a(2 ,wo)) 


神经 元 的 输出 通常 在 闭 区 间 [0,1] 中 ， 有 时 也 采用 另 一 种 区 间 [-1,1]。 
激活 函数 c() 可 以 取 不 同 的 函数 。 常 用 的 基本 激活 函数 有 以 下 3 种 。 


1. 阅 值 函数 
闵 值 函数 也 称 为 阶 跃 函数 ， 可 以 写 为 : 
ca)= { v 三 0 
0 


函数 如 图 8.3 所 示 。 


o(v) 


0 了 


8.3 ” 阅 值 函 数 


神经 网 络 
神经 元 的 输出 取 0 或 者 1， 表 示 神 经 元 兴奋 或 者 抑制 。 
2. 分 段 线性 函数 


分 段 线性 函数 的 表达 式 为 : 
Vv 三 0.5 
o(v)= 二 —0.5<v<0.5 
0 v0.5 
函数 如 图 8.4 所 示 。 
3. sigmoid 函数 


sigmoid 函数 也 称 为 * 型 函数 ， 是 构造 人 工 神经 网 络 最 常用 的 激活 函数 。sigmoid 函 
数 的 表达 式 为 : 
a) -1 _. 
1+exp(-avV) 
其 中 ，a 是 sigmoid 函数 的 斜率 参数 ， 通 过 改变 参数 a， 可 以 改变 函数 的 倾斜 程度 ， 
从 而 得 到 不 同 斜率 的 sigmoid 函数 ， 如 网 8.5 所 示 。 


0 vy 


图 8.4 ”分 段 线性 函数 图 8.5 sigmoid 函数 


将 许多 神经 元 按照 某 种 方式 连接 起 来 ， 就 成 为 了 神经 网 络 。 神 经 网 络 的 连接 方式 有 
很 多 种 ， 也 就 形成 了 不 同类 型 的 网 络 结构 。 同 时 ， 不 同类 型 的 神经 网 络 ， 其 相应 的 训练 
算法 〈 学 习 算 法 ) 也 有 较 大 区 别 。 

1. 神经 网 络 的 分 类 

对 神经 网 络 的 分 类 可 以 从 多 个 角度 来 进行 : 

(1) 从 网 络 性 能 角度 ， 可 以 分 为 连续 型 和 离散 型 网 络 、 确 定性 和 随机 性 网 络 。 


(2) 从 网 络 结构 角度 ， 可 以 分 为 前 向 网 络 与 反馈 网 络 。 
(3) 从 学 习 方式 角度 ， 可 以 分 为 有 导师 学 习 网 络 和 无 导师 学 习 网 络 。 
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(4) 从 连接 突 触 的 性 质 角度 ， 可 以 分 为 一 阶 线性 关联 网 络 和 高 阶 非 线 性 关联 网 络 。 

就 神经 网 络 在 数据 挖掘 中 的 应 用 来 看 ， 前 向 神经 网 络 是 数据 挖掘 中 应 用 最 广 的 一 种 
网 络 ， 其 原理 或 算法 也 是 很 多 神经 网 络 模型 的 基础 。 后 文中 详细 介绍 的 多 层 感知 器 和 径 
向 基 函 数 网 络 都 属于 前 向 神经 网 络 。 

前 向 神经 网 络 又 分 为 单 层 前 向 网 络 和 多 层 前 向 网 络 。 

所 谓 单 层 前 向 网 络 ， 是 指 网 络 中 只 有 一 层 神 经 元 。 也 就 是 说 ， 网 络 包含 两 层 ， 即 输 
入 层 和 输出 层 。 其 中 输入 层 只 有 输入 信号 ， 没 有 神经 元 。 输 出 层 则 由 神经 元 组 成 。 

多 层 前 向 网 络 与 单 层 前 向 网 络 的 区 别 在 于 ， 多 层 前 向 网 络 的 输入 层 和 输出 层 之 间 包 
含 一 个 或 多 个 隐藏 层 ， 图 8.1 显示 的 就 是 一 个 3 层 的 前 向 网 络 ， 含 有 一 个 隐藏 层 。 其 中 ， 
隐藏 层 中 的 神经 元 被 称 为 隐藏 神经 元 。 

在 多 层 前 向 网 络 中 , 输入 层 的 输入 信号 作为 第 二 层 (第 一 隐藏 层 ) 中 神经 元 的 输入 ， 
第 二 层 神经 元 的 输出 再 作为 第 三 层 神经 元 的 输入 ， 以 此 类 推 。 因 此 ， 信 号 从 输入 层 输入 ， 
经 隐藏 层 传 给 输出 层 ， 最 后 由 输出 层 得 到 输出 信号 。 通 过 加 入 一 个 或 多 个 隐藏 层 ， 使 网 
络 能 够 提取 出 更 高 序 的 统计 ， 尤 其 当 输入 层 规模 庞大 时 ， 隐 藏 神 经 元 提取 高 序 统计 数据 
的 能 力 显得 更 加 重要 。 


2. 学 习 算 法 


神经 网 络 的 学 习 也 称 为 训练 ， 是 通过 神经 网 络 所 在 环境 的 刺激 作用 调整 神经 网 络 的 
自由 参数 ， 使 神经 网 络 以 一 种 新 的 方式 对 外 部 环境 做 出 反应 的 过 程 。 

构造 神经 网 络 模型 ， 归 根 结 底 是 要 确定 网 络 中 的 各 突 触 权 值 以 及 相关 的 自由 参数 ， 
确定 这 些 数值 的 方法 ， 就 是 神经 网 络 的 学 习 算法 。 不 同 的 学 习 算 法 对 神经 元 的 突 触 权 什 
调整 的 表达 式 有 所 不 同 ， 也 没有 任何 一 种 学 习 算法 可 以 用 于 所 有 的 神经 网 络 。 

从 学 习 的 方式 上 来 看 ， 学 习 可 以 分 为 有 导师 学 习 和 无 导师 学 习 两 种 。 

有 导师 学 习 又 称 为 有 监督 学 习 ， 在 学 习 时 需要 给 出 期 望 输出 《导师 信号 )。 期 望 答 出 
代表 了 神经 网 络 执行 情况 的 最 佳 结果 ， 根 据 给 定 的 网 络 输入 来 调整 网 络 参数 ， 使 得 网 络 
输出 逼近 期 望 输出 。 

无 导师 学 习 包括 强化 学 习 和 无 监督 学 习 (或 称 为 自 组 织 学 习 )。 在 强化 学 习 中 ,对 输 
入 输出 喘 射 的 学 习 是 通过 与 外 界 环 境 的 连续 作用 最 小 化 性 能 的 标量 索引 而 完成 的 。 在 无 
监督 学 习 中 没有 外 部 评价 来 监督 学 习 的 过 程 ， 而 是 提供 一 个 关于 网 络 学 习 表示 方法 质量 
的 测量 尺度 ， 根 据 该 尺度 将 网 络 的 自由 参数 最 优化 。 

如 前 所 述 ， 不 同类 型 的 神经 网 络 ， 其 学 习 算法 各 不 相同 。 对 于 前 向 神经 网 络 ， 大 多 
采用 纠 错 学 习 算 法 ， 也 称 为 Delta 规则 或 者 Widrow_Hoff 规则 ， 该 算法 的 基本 思想 描述 
如 下 ; 

对 于 神经 元 j， 第 n 次 训练 其 产生 的 输出 为 yj(m)， 这 是 神经 网 络 根据 输入 通过 计算 
得 到 的 结果 ， 是 网 络 的 输出 。 与 这 个 输入 相对 应 的 期 望 输出 即 为 d)， 那 么 网 络 输出 和 
期 望 输出 之 间 的 误差 为 e(m)= d(m) 一 p(m)。 现在， 学 习 的 任务 就 是 要 调整 突 触 权 值 ， 使 得 
误差 em) 减 小 。 为 此 ， 可 设 定 代价 函数 Eln) 

= 了 
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反复 调整 突 触 权 值 ， 使 代价 函数 达到 最 小 ， 或 者 突 触 权 值 稳定 下 来 ， 就 完成 了 学 习 
任务 。 
用 wi 表示 神经 元 i 到 神经 元 j 的 突 触 权 值 ， 在 第 n 次 训练 时 ， 这 个 突 触 权 值 要 进行 
调整 ， 其 调整 量 为 。 Aw,(n)=7e(n)y(n)， 其 中 ， 称 为 学 习 率 参数 ，y(n) 表示 此 时 神 
经 元 i 的 输出 (也 就 是 神经 元 j 的 输入 )。 这 表明 ， 对 神经 元 突 触 权 值 的 调整 与 突 触 误差 
信号 和 输入 信号 成 比例 。 在 得 到 Aw(n) 之 后 ， 定 义 突 触 权 值 的 校正 值 为 : 
wa(n+l)=wi(n)+ Aw(n) 


其 中 ，w(n) 和 wi(n+]) 分 别 是 突 触 权 值 的 旧 值 和 新 值 。 


8.2) 多 层 感知 器 与 RBF 网 络 


多 层 感 知 器 与 RBF 神经 网 络 是 目前 应 用 最 为 广泛 的 两 种 前 向 型 神经 网 络 。 


1. 多 层 感知 器 简介 


多 层 感知 器 是 一 种 典型 的 多 层 前 向 网 络 ， 在 有 监督 学 习 的 方式 下 ， 通 过 “误差 反 向 
传播 算法 ”来 训练 多 层 感知 器 。 

多 层 感 知 器 由 输入 层 、 隐 藏 层 和 输出 层 组 成 ， 其 中 隐藏 层 可 以 是 一 层 或 者 多 层 。 输 
入 层 的 节点 数 为 输入 信号 的 维 数 ， 隐 藏 层 个 数 以 及 每 个 隐藏 层 包 含 隐藏 神经 元 的 个 数 视 
具体 情况 而 定 ， 输 出 层 神 经 元 的 个 数 为 输出 信号 的 维 数 。 

多 层 感知 器 有 3 个 突出 的 特点 : 

(1) 多 层 感 知 器 包含 有 一 层 或 者 多 层 隐藏 层 ， 隐 藏 神经 元 可 以 从 输入 信号 中 提取 更 
多 有 用 的 信息 ， 使 网 络 可 以 完成 更 加 复杂 的 行为 。 

(2) 多 层 感 知 器 中 每 个 神经 元 所 使 用 的 激活 函数 是 可 微 的 sigmoid 函数 : 

1 
l+e™ 

这 里 ,x 是 神经 元 全 部 输入 的 加 权 和 ，o(x) 则 是 神经 元 的 输出 。 

(3) 多 层 感 知 器 具有 高 度 的 连通 性 ， 这 是 由 突 触 决定 的 。 网 络 连 接 的 改变 需要 突 触 
连接 数量 及 其 权 值 的 改变 。 

正 是 由 于 上 述 特 点 ， 使 得 多 层 感 知 器 具有 强大 的 计算 能 力 ， 从 而 能 够 通过 训练 从 经 
验 中 进行 学 习 。 

为 了 更 加 深入 地 理解 多 层 感知 器 ， 还 必须 理解 在 多 层 感知 器 中 流动 着 的 两 种 信号 以 
及 它们 完全 相反 的 流动 方向 ， 如 图 8.6 所 示 。 这 两 种 信号 分 别 是 “函数 信号 ”和 “误差 
信号 ”。 

函数 信号 是 从 网 络 的 输入 层 而 来 的 信号 ， 通 过 网 络 中 神经 元 之 间 的 传播 ， 到 达 网 络 
输出 层 称 为 输出 信号 ， 它 是 正 向 传播 的 。 函 数 信号 在 向 前 传播 的 过 程 中 ， 网 络 中 的 突 触 
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权 值 是 固定 不 变 的 。 


图 8.6 函数 信号 与 误差 信号 


误差 信号 是 从 网 络 的 输出 层 而 来 的 信号 。 网 络 的 输出 与 期 望 输出 之 间 的 差 值 即 为 误 
差 信号 ， 误 差 信号 由 输出 层 逐 层 反 向 传播 。 在 误差 信号 反 向 传播 的 过 程 中 ， 网 络 中 的 突 
触 权 值 要 根据 误差 信号 进行 调节 ， 通 过 权 值 的 不 断 修 正 ， 使 得 网 络 的 输出 不 断 向 期 望 输 
出 逼近 。 

因此 ， 在 多 层 感知 器 的 每 个 神经 元 中 ， 都 必须 能 够 完成 以 下 两 个 计算 功能 : 

(1) 计算 每 个 神经 元 输出 的 函数 信号 ， 它 表现 为 关于 该 神经 元 所 有 输入 信号 以 及 相 
应 突 触 权 值 的 一 个 连续 非 线性 函数 。 

(2) 计算 每 个 神经 元 反 向 传播 的 误差 信号 ， 并 进一步 根据 误差 信号 计算 每 个 与 该 神 
经 元 相连 的 突 触 权 值 的 改变 量 。 这 也 是 每 个 神经 元 最 主要 的 计算 内 容 。 


2. 多 层 感知 器 的 输入 


在 开始 进行 神经 网 络 的 训练 之 前 , 有 必要 先 了 解 一 下 多 层 感 知 器 对 输入 信号 的 要 求 ， 
并 不 是 任何 格式 的 输入 信号 都 可 以 直接 用 于 神经 网 络 的 训练 中 。 

传递 给 神经 元 的 输入 信号 的 值 必须 是 数值 型 的 且 落 在 [0.1] 闭 区 间 中 。 因 此 ， 对 于 不 
满足 这 一 要 求 的 连续 型 数据 和 离散 型 数据 ， 首 先 要 进行 数据 的 转换 。 

(1) 连续 型 数据 的 转换 。 

可 以 通过 下 面 这 个 公式 进行 转换 : 


max 一 Amin 


其 中 ，xam 和 x 分 别 是 属性 子 的 全 部 取 值 中 的 最 小 值 和 最 大 值 ，x 是 某 个 样本 的 
属性 也 的 取 值 ，x; 就 是 转换 后 的 属性 值 。 显 然 ， 总 落 在 [0.1] 闭 区 间 中 。 这 一 转换 的 另 一 
个 好 处 是 使 得 所 有 连续 型 属性 具有 了 统一 的 测度 。 

(2) 离散 型 数据 的 数字 化 。 

数据 库 中 有 些 属性 是 离散 型 的 ， 例 如 “颜色 ”的 取 值 属于 一 个 域 { 黑 ， 白 ， 紫 ， 红 }。 

外 如 果 域 中 的 取 值 比较 少 。 

在 Clementine 中 ， 用 一 个 数值 来 表示 离散 型 域 中 的 每 一 个 值 。 这 样 原始 的 离散 型 字 
段 被 转化 为 若干 个 数值 型 字段 (派生 字段 )。 对 于 某 个 字段 的 取 值 ， 其 对 应 的 派生 字段 取 
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值 为 1， 其 他 派生 字段 取 值 为 0。 所 以 这 些 派生 字段 也 称 为 指示 器 字段 。 
例如 ， 在 下 面 这 些 数据 中 ， 了 对 是 一 个 离散 型 字段 ， 值 域 为 {4，B，C}: 
Record# bp pa pe 


1 B 0 1 0 
2 A 1 0 0 
3 0 0 1 


其 中 ， 原 始 属性 下 被 编码 为 3 个 派生 属性 : 钱 '， 天 '， 天 '。 也 是 4 的 指示 器 ,天 是 
B 的 指示 器 ， 玉 是 C 的 指示 器 。 

@ 如 果 域 中 的 取 值 比较 多 。 

对 于 上 面 这 种 方法 ， 每 一 个 取 值 都 需要 一 个 派生 属性 ， 所 以 如 果 取 值 较 多 ， 将 有 太 
多 的 派生 属性 ， 这 是 不 行 的 。 这 时 可 采用 二 元 集 编码 ， 即 每 个 取 值 用 一 个 二 进 制 数 来 表 
示 ， 那 么 4 个 取 值 只 需要 2 个 派生 属性 。 例 如 : 


Record# XX Xl 厂 
1 A 0 
2 B 1 0 
3 C 1 


@ 标志 型 字段 的 编码 。 

标志 型 字段 只 有 两 个 值 : tue 和 false。 用 1 表示 true， 用 0 表示 false， 用 0.5 来 表 
示 缺 失 值 。 

3. 训练 神经 网 络 


训练 开始 的 时 候 ， 网 络 中 的 所 有 权 值 都 被 随机 地 设置 为 一 个 属于 [-0.5,0.5] 的 值 。 

训练 的 过 程 包 括 几 轮 。 在 每 一 轮 中 ， 从 训练 数据 集中 随机 地 选取 n 个 记录 出 来 (由 
于 是 随机 选取 ,所 以 有 的 记录 会 被 多 次 选取 ,有 的 记录 则 从 未 被 选取 )， 把 这 n 个 记录 依 
次 代入 网 络 中 。 

对 于 每 一 个 记录 ， 记 录 中 各 属性 的 值 被 当 作 输 入 信号 输入 给 神经 网 络 ， 然 后 网 络 中 
的 神经 元 根据 给 自己 的 输入 及 相应 的 突 触 权 值 来 计算 它们 各 自 的 输出 ， 依 据 的 计算 公 
式 为 : 


策 三 ca(C2 ,wo)) 

这 里 ，a 是 神经 元 i 的 输出 ，wy 是 神经 元 到 神经 元 i 的 连接 的 权 值 ，0) 是 神经 元 j 
的 输出 。 (9 是 激活 函数 ，o(W) = 一。 

当 逐 层 的 神经 元 计算 出 各 自 的 输出 后 ， 最 终 在 输出 层 神经 元 处 将 得 到 对 当前 记录 目 
标 字段 的 预测 值 。 把 这 个 预测 值 和 当前 记录 的 实际 值 相 比较 ， 就 产生 了 预测 误差 。 这 个 
预测 误差 将 被 反馈 到 网 络 中 去 更 新 所 有 的 突 触 权 值 。 

假设 现在 将 记录 代入 网 络 ， 每 个 神经 元 都 计算 出 了 各 自 的 输出 ， 下 面 开始 由 输出 
层 反 向 逐 层 的 神经 元 计算 各 自 的 反 向 传播 误差 对 于 一 个 神经 元 户 它 的 反 向 传播 误差 8， 
因 其 所 在 的 层 不 同 ， 其 计算 方法 也 不 同 
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(1) 如 果 神 经 元 7 是 输出 层 的 神经 元 ， 那 么 其 反 向 传播 误差 为 : 
Sw = (ty 0)0"(a)) 
其 中 , 是 记录 的 目标 字段 的 实际 值 ( 即 神经 元 的 期 望 输出 )，ow 是 神经 元 j 对 记 
录 p 的 目标 字段 的 计算 输出 ( 即 神经 元 的 预测 输出 ), o'(a)) 是 激活 函数 的 一 阶 导 数 o'(x) 
在 x=aj 处 的 值 ，a; 是 神经 元 j 的 输入 加 权 和 。 显 然 ，ow = o(aj)。 


由 于 ao- 人 1 -| 一- 1 =) -00), 所 以 
1+e l+e l+e 
6 =(ty —0p)0"(a;)= (ty — Ow)ow(l -on) 
(2) 如 果 神 经 元 在 隐藏 层 ， 那 么 其 反 向 传播 误差 为 
6 = OO)2 op (oo)2.5pr 

其 中 , 大 表示 神经 元 ] 有 大 个 反 向 输入 的 误差 ，www 是 神经 元 j 与 神经 元 天 连接 的 权 
值 ，oz 是 神经 元 j 对 于 记录 p 的 计算 输出 。 如 图 8.7 所 示 ， 隐 藏 层 神经 元 六 有 上 大 个 反 向 
传播 的 输入 误差 。 

隐藏 层 隐藏 层 或 输出 层 


8.7 ”隐藏 层 神经 元 的 反 向 传播 误差 


在 反 向 传播 误差 计算 结束 后 ， 即 可 计算 突 触 权 值 的 改变 量 Aw。 神 经 元 i 到 神经 元 j 
的 突 触 权 值 的 改变 量 为 
Awj(n +1)=76y0p; +CQAW(OD) 
其 中 : 是 学 习 率 参数 ，0<1<1; 
5% 是 神经 元 j 的 反 向 传播 误差 ; 
ow 是 神经 元 i 的 输出 : 
a 称 为 动量 常数 ， 通 常 是 正 数 ， 在 神经 网 络 训练 过 程 中 固定 不 变 ; 
Awj(n) 是 她 在 上 一 次 的 改变 量 (n 表示 “ 某 一 次 ”所 以 n+l 代表 “之 后 的 一 
次 ”)。 
在 Clementine 中 ， 学 习 率 参数 1 的 值 在 训练 中 的 每 一 轮 都 会 改变 。 的 改变 是 这 样 
来 实现 的 : 首先 由 用 户 自 定义 3 个 参数 ,initial eta、low eta、high eta。/ 开始 于 initial eta， 
然后 以 对 数 方式 不 断 减 小 到 low eta， 然 后 又 还 原 到 high eta， 再 又 不 断 减 小 到 low eta。 7 
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的 值 这 样 来 计算 : 
7D=7Gt-D: be 
1 


high 
其 中 , 4 是 用 户 指 定 的 衰减 周期 数 , 也 就 指定 了 1 降低 的 速率 , 该 速率 以 从 whio 到 
Thow 的 周期 数 表示 。 当 IC-D< mow 时 ，w(D) 就 被 设置 为 mign。 循 环 往 复 ， 直 到 训练 结束 ， 
如 图 8.8 所 示 。 


下 


initial eta 


high eta 


low eta 


图 8.8 的 变化 方式 
-个 记录 被 提交 给 网 络 后 ， 通 过 以 上 计算 ， 每 个 权重 值 被 立即 更 新 为 
WwW(n+D)=w(n)+Aw(n+l) 
当 满足 设 定 的 训练 停止 准则 后 ， 训 练 任务 结束 ， 形 成 最 终 的 神经 网 络 模型 。 
下 面 通 过 一 个 实例 来 演示 上 面 的 计算 过 程 。 
图 8.9 所 示 的 多 层 感 知 器 网 络 包含 3 层 : 输入 层 、 输 出 层 和 一 个 隐藏 层 。 假 设 当前 
各 突 触 权 值 为 : wy0.2, wi 二 0.1, wy =0.3, wz 二 -0.1, wa—0.1, waF0.2, wk =0.1, wi =0.5。 


8.9 多 层 感知 器 实例 


此 时 将 输入 信号 xi=1，mP=0.4，xm=0.7 代入 网 络 ， 那 么 神经 元 i 和 j 的 输入 分 别 为 
aq 广 1x0.2 + 0.4x0.3 + 0.7x(-0.1)=0.25 
a 二 1x0.1 + 0.4x(-0.1) + 0.7x0.2=0.2 


神经 元 i 和 j 的 输出 分 别 为 
pe ti 
0 (0 0.562; oj=a(a) Te 0.55 
神经 元 大 的 输入 为 


aE-0.362x0.1 + 0.55x0.5=0.331 
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神经 元 大 的 输出 为 
or =0(a;) SS 0.582 


te 
设 神经 元 大 的 期 望 输出 如 0.65， 那 么 可 计算 神经 元 的 反 向 传播 误差 为 
6 =(t. —0;)0.(1—0)=(0.65—0.582)x0.582x(1—0.582) =0.017 
隐藏 层 的 神经 元 7 和 i 的 反 向 传播 误差 分 别 为 
6) =0,(1 -0))D 6.w =0.562x (1 —0.562)x (0.017x0.1) =0.000418 
此 


6, =0,(1—0,)D 6.w =0.55x(1—0.55) x (0.017x0.5) =0.002104 
天 
设 动量 常数 wx 设 定 为 0.05， 当 前 的 学 习 率 参数 1 为 0.5， 上 一 次 的 权 值 改变 量 分 


Awy(n)=0.001, Awuii(n)=0.003, Aw(n)=—0.005, A wi(n)= 0.01, Awa(n)=0.001, 
Awsi(n)= -0.01, Awx(n)=0.013, A wir(n)=—0.025。 

那么 当前 的 权 值 改变 量 为 

Awj(n+1)=76)0, + aAwj;(n)=0.5x0.000418x1+0.05x0.001=0.000259 
Awi(n+1)=76;0, + aAw;(n)=0.5x0.002104x1+0.05x0.003=0.001202 

Aw, (n+1)=716,0, + aAw,,(n)=0.5x0.000418x0.4+0.05x(-0.005) = 0.000166 
Aw,i(n+1)=16,0, + aAw,;(n)=0.5x0.002104x0.4+0.05x0.01=0.000921 
Awj(n +1)=76)0; + AW,(n)=0.5x0.000418x0.7+0.05x0.001=0.000196 
Aw;(n+1)=76,0; + aAws;(n)=0.5x0.002104x0.7+0.05x(-0.01) =0.000236 
Aw (nt+l)=76.0; + aAw(n)=0.5x0.017x0.562+0.05x0.013=0.005427 
Aw (n+1)=7610; + Aw (n)=0.5x0.017x0.55+0.05x(-0.025) = 0.003425 
从 而 可 计算 出 新 的 突 触 权 值 : 

w=0.2+0.000259=0.200259; wia0.1+0.001202=0.101202; 

wz =0.3+0.000166=0.300166; w2 直 -0.1+0.000921=-0.099079; 
wa——0.1+0.000196=-0.099804; w3 直 0.2+0.000236=0.200236; 

wx =0.1+0.005427=0.105427; wir =0.5+0.003425=0.503425。 


Powell 在 1985 年 提出 了 多 变量 插值 的 径 向 基 函 数 (Radial-Basis Function，RBF ) 方 
Broomhead 和 Lowe 在 1988 年 首先 将 RBF 应 用 于 神经 网 络 的 设计 ， 构 成 了 径 向 基 


函数 神经 网 络 ， 即 RBF 神经 网 络 。 


RBF 神经 网 络 是 一 种 3 层 前 向 网 络 ， 由 输入 层 、 隐 藏 层 和 输出 层 构成 。 同 层 之 间 没 


有 连接 ， 相 邻 两 层 之 间 则 完全 连接 。 输 入 层 由 信和 号 源 节点 组 成 ， 节 点 的 数目 等 效 于 所 研 
究 问 题 的 独立 变量 数目 。 第 二 层 为 隐藏 层 ， 其 包含 的 隐藏 神经 元 的 数量 由 所 描述 的 问题 


而 定 ， 隐 藏 神经 元 以 基 函 数 为 激活 函数 ， 通 过 径 向 基 沪 数 对 输入 产生 非 线 性 映射 。 输 出 


层 神经 元 对 隐藏 层 的 输出 进行 线性 加 权 组 合 。 


RBF 神经 网 络 具 有 较 强 的 输入 、 输 出 映射 功能 ， 并 且 理 论证 明 在 前 向 网 络 中 RBF 
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神经 网 络 是 完成 映射 功能 的 最 优 网 络 。 因 此 ，RBF 神经 网 络 以 其 简单 的 结构 、 快 速 的 训 
练 过 程 和 良好 的 推广 能 力 等 诸多 优点 在 许多 应 用 领域 取得 了 巨大 的 成 功 ， 特 别 是 在 模式 
分 类 和 函数 逼近 方面 。 

根据 隐藏 层 所 包含 的 神经 元 数量 不 同 ，RBF 神经 网 络 可 以 分 为 正规 化 网 络 
(Regularization Network) 和 广义 网 络 (Generalized Network) 两 种 。 在 正规 化 网 络 中 ， 
隐藏 层 的 神经 元 数量 与 训练 样本 的 个 数 相 同 ， 因 此 适用 于 小 样本 数据 集 。 当 样本 量 较 大 
时 ， 则 应 该 采用 广义 网 络 。 由 于 在 数据 挖掘 中 往往 处 理 的 是 海量 样本 ， 因 此 在 实际 应 用 
中 更 多 地 会 选用 广义 径 向 基 函 数 网 络 。 

如 图 8.10 所 示 ， 广 义 径 向 基 函 数 网 络 的 输入 层 由 N 个 输入 信号 组 成 。 隐 藏 层 由 J 
(J<N) 个 神经 元 组 成 ， 任 一 隐藏 神经 元 用 表示 ， 第 j 个 隐藏 神经 元 的 激励 输出 为 “ 基 
函数 ”g(r,c), 其 中 + 是 神经 元 的 输入 向 量 (例如 一 个 训练 样本 [ml)，c 产 [cn cp2,*…， 
Gm,] (三 1，2，…，J) 是 基 函 数 的 中 心 。 基 函数 一 般 选 择 格林 函数 中 的 高 斯 函数 : 


x 


图 8.10 广义 径 向 基 范 数 网 络 


po=e| -| 
20 
其 中 ，c 是 高 斯 函数 的 中 心 ，o 为 方差 。 其 函数 图 像 如 图 8.11 所 示 。 


图 8.11 高 斯 函数 


因此 ， 在 应 用 高 斯 函数 时 ， 必 须 首先 确定 高 斯 函数 的 中 心 c 和 方差 o 。 

确定 高 斯 函数 中 心 的 方法 主要 有 4 种 : 随机 选取 中 心 法 、 自 组 织 选 取 中 心 法 、 有 监 
督 选取 中 心 法 和 正 交 最 小 二 乘法 。 在 Clementine 中 采用 的 是 自 组 织 选取 中 心 法 ， 是 用 
K-Means 聚 类 算法 来 实现 的 。 也 就 是 说 ， 首 先 根据 训练 样本 集 用 KK-Means 聚 类 算法 生成 
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J 个 聚 类 ， 每 个 聚 类 对 应 着 隐藏 层 的 一 个 神经 元 ， 并 且 这 个 聚 类 的 质心 向 量 作为 所 对 应 


Clementine 设 定 的 停止 准则 为 :最 大 办 代 次 数 为 10;， 四 差异 容忍 度 为 0.000001。 当 满 
足 任 一 准则 时 ， 停 止 迭 代 。 

高 斯 函数 的 方差 o 决定 了 基 函 数 的 作用 范围 。c 值 由 小 变 大 ， 高 斯 函数 的 响应 面 则 
从 陡峭 向 平坦 变化 ， 响 应 面 越 陡峭 ， 神 经 网 络 对 样本 与 高 斯 函数 中 心 的 区 分 越 灵 敏 。 但 
是 过 小 ， 神 经 网 络 对 噪声 太 敏 感 ， 易 失真 ， 而 c 过 大 ， 则 会 使 得 神经 网 络 丧 失 区 分 和 
拟 合 的 能 力 ， 因 此 RBF 网 络 需要 选择 合适 的 值 。 

针对 所 研究 问题 的 实际 情况 ， 方 差 c 值 可 用 不 同 的 方法 来 确定 和 调整 。 例 如 可 以 
采用 : 


=0,=.…=0),= 


~ 机 
S| 


其 中 ，coax 是 所 选取 中 心 之 间 的 最 大 距离 〈 即 距离 最 远 的 两 个 聚 类 质心 之 间 的 距离 )，J7 
是 聚 类 数 〈 即 隐藏 层 神经 元 数目 )。 
在 Clementine 中 ，o 值 是 由 如 下 公式 来 确定 的 : 


[a +d. 
=0,=.…=0),= 


其 中 ,中 和 史 分 别 是 聚 类 质心 之 间 的 最 大 距离 和 第 二 大 的 距离 。 
现在 ， 高 斯 函数 的 中 心 c 和 方差 o 确定 之 后 ， 可 以 得 到 任 一 隐藏 神经 元 7 的 激励 响 


应 为 : 
|lF=z 人 
es 
其 中 , r 是 神经 元 j 的 输入 向 量 ，c 是 该 神经 元 的 质心 向 量 。||r 一 cl| 实 际 上 是 + 与 c 之 间 
的 欧 氏 距离 (Euclid Distance ) 。 
在 Clementine 中 ， 对 上 式 稍 作 调整 ， 增 加 了 一 个 RBF 重 辣 系数 h， 神 经 元 j 的 激励 
响应 计算 公式 变 为 : 
| _llr=ef 
207h 


这 里 的 RBF 重合 系数 h 是 一 个 正 实数 值 ， 用 于 控制 聚 类 之 间 的 重生 数量 。 通过 增加 这 个 
系数 ， 可 以 增加 每 个 隐藏 神经 元 相关 联 的 聚 类 的 大 小 ， 从 而 使 输入 的 每 个 训练 样本 能 够 
影响 到 距离 较 远 的 聚 类 。 

在 RBF 网 络 中 ,从 隐藏 层 神经 元 7 到 输出 层 神经 元 大 之 间 的 权 值 记 为 wx。 输出 层 神 
经 元 对 隐藏 层 的 输出 进行 线性 加 权 组 合 。 因 此 ， 一 个 输出 层 神经 元 的 输出 为 : 


O04= 2 wa 
Pa 


神经 网 络 的 训练 ， 最 终 要 通过 训练 来 确定 最 优 的 突 触 权 值 。RBF 网 络 中 突 触 权 值 的 
训练 同样 采用 反 向 误差 传播 方法 ， 相 当 于 训练 一 个 二 层 前 向 网 络 。 在 训练 之 初 ， 先 将 所 
有 的 权 值 初始 化 为 -0.001 科 和 0.001 中 的 值 ， 然 后 在 每 次 输入 训练 样本 后 的 训练 周期 
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中 依 下 式 进行 更 新 : 


wr(D Se w(t = 人 0 Awj (D 
其 中 ， 改 变 率 Awj() 依 下 式 计算 
Ar (1D)=n(n 一 Or)aj + QAWi (1:-—D) 
与 多 层 感 知 器 一 样 ， 这 里 的 是 学 习 率 参数 ，a 为 动量 常数 。 但 与 多 层 感知 器 的 训练 不 
同 的 是 ， 这 里 的 在 训练 过 程 中 国定 不 变 。 
以 上 介绍 的 是 最 常用 的 RBF 网 络 训练 方法 。 在 实际 应 用 中 , 基 函 数 除了 选用 高 斯 函 
数 ， 也 常 使 用 多 二 次 函数 和 逆 多 二 次 函数 ， 它 们 都 是 对 中 心 点 径 向 对 称 的 函数 : 


多 二 次 函数 ， 
= te 


1 
G7) Te 

另外 ， 在 上 面 介 绍 的 方法 中 ， 基 函数 的 方差 都 是 相同 的 。 其 实 每 个 基 函 数 都 有 自己 
的 方差 ， 在 训练 过 程 中 也 可 以 根据 自身 的 情况 来 分 别 设 定 。 

最 后 来 总 结 一 下 RBF 网 络 与 多 层 感 知 器 之 间 的 区 别 。 虽 然 RBF 网 络 与 多 层 感知 器 
都 是 非 线 性 的 层 状 前 向 网 络 ， 但 在 具体 实现 上 存在 下 列 几 个 显著 的 区 别 : 

(1) RBF 网 络 只 有 一 个 隐藏 层 ， 而 多 层 感知 器 则 可 以 有 多 个 隐藏 层 。 

(2) 在 多 层 感知 器 中 ， 所 有 神经 元 〈 隐 藏 层 神经 元 和 输出 层 神经 元 ) 的 计算 模型 都 
是 相同 的 ， 而 在 RBF 网 络 中 ， 隐 藏 层 神经 元 和 输出 层 神经 元 的 计算 模型 不 同 ， 作 用 也 
不 同 。 

(3) 从 神经 元 的 计算 模型 可 以 看 出 ，RBF 网 络 中 隐藏 层 神经 元 的 计算 是 非 线 性 的 ， 
而 输出 层 的 计算 则 是 线性 的 。 对 于 多 层 感知 器 而 言 ， 当 用 于 解决 模式 分 类 问题 时 ， 它 的 
隐藏 层 和 输出 层 通常 选 为 非 线 性 的 ， 当 用 于 解决 非 线性 回归 问题 时 ， 其 输出 层 通常 选择 
线性 的 。 

(4) RBF 网 络 隐藏 层 神经 元 的 基 函 数 计算 的 是 输入 向 量 和 质心 的 欧 氏 距离 ， 而 多 层 
感知 器 神经 元 的 激励 函数 计算 的 是 输入 信号 和 连接 权 值 间 的 内 积 。 

(5) 多 层 感知 器 是 对 非 线性 映射 的 全 局 逼近 ,而 RBF 网 络 使 用 局 部 指数 衰减 的 非 线 
性 函数 〈 如 高 斯 函数 ) 对 非 线 性 输入 -输出 映射 进行 局 部 帝 近 。 这 意味 着 当 副 近 一 个 非 线 
性 的 输入 -输出 映射 时 ， 在 相同 精度 要 求 下 ， 多 层 感 知 器 需要 的 参数 要 比 RBF 网 络 所 需 
要 的 参数 数量 少 。 

由 于 RBF 网 络 能 够 逼近 任意 的 非 线性 函数 ， 可 以 处 理 系统 内 在 的 难以 解析 的 规律 
性 ， 并 且 具 有 极 快 的 学 习 收 敛 速 度 ， 因 此 RBF 网 络 有 较为 广泛 的 应 用 。 


逆 多 二 次 函数 : 


在 Clementine 中 ,构建 神经 网 络 模型 是 由 “神经 网 络 ” 节 点 芍 来 完成 的 。 在 利用 该 
节点 训练 神经 网 络 时 ， 对 输入 字段 的 类 型 没有 限制 ， 可 以 处 理 数字 、 符 号 或 标志 型 输入 
和 输出 。 在 训练 之 前 ， 必 须 为 神经 网 络 节点 指定 一 个 或 多 个 方向 为 “输入 ”的 字段 ， 以 
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及 一 个 或 多 个 方向 为 “输出 ”的 字段 。 设 置 为 “双向 ”或 “无 ”的 字段 将 被 忽略 。 
本 小 节 描述 一 个 根据 数据 样本 集 来 训练 神经 网 络 的 案例 ， 在 本 例 中 ， 将 根据 全 国 各 
省 的 多 项 经 济 指标 分 别 构建 一 个 多 层 感知 器 和 一 个 RBF 网 络 ， 并 将 其 用 于 对 GDP 总 量 
的 预测 分 析 。 样 本 数据 集 存放 在 “经 济 发 展 基本 信息 .xls” 文 件 中 ， 如 表 8-1 所 示 。 
表 8-1 经 济 发 展 基 本 信息 样本 
居民 消 ”固定 资 ”职工 平 ”货物 周 。 居民 消费 商品 零售 ”工业 


地 区 。 费 水 平 产 投资 均 工资 ， 转 量 。 ”价格 指数 价格 指数 。 总 产值 “GDP 
北京 2505 519.01 8144 373.9 13 112.6 843.43 1394.89 
天 津 2720 345.46 6501 342.8 115.3 110.6 582.51 920.11 
河 北 1258 704.87 4839 2033.3 M52 115.8 1234.85 2849.52 
山西 1250 290.9 4721 717.3 116.9 115.6 697.25 ”1092.48 
内 蒙古 1387 250.23 4134 781.7 ii75 116.8 419.39 832.88 
辽宁 2397 887.99 4911 1371.1 116.1 114 1840.55 2793.37 
吉 林 1872 320.45 4430 497.4 115.2 114.2 762.47 1129.2 
黑龙 江 2334 435.73 4145 824.8 116.1 114.3 1240.37 ”2014.53 
上 海 5343 996.48 9279 207.4 87 113 1642.95 2462.57 
江 苏 1926 1434.95 5943 1025.5 115.8 114.3 2026.64 5155.25 
188 浙 江 2249 1006.39 6619 754.4 116.6 il35 916.59 ”3524.79 
安 徽 1254 474 4609 908.3 114.8 112.7 824.14 ”2003.58 
福 建 2320 553.97 5857 609.3 ils 114.4 433.67 2160.52 
江 丁 1182 282.84 4211 411.7 116.9 115.9 571.84 ”1205.11 
山 东 1527 1229.55 5145 1196.6 117.6 114.2 2207.69 ”5002.34 
河 南 1034 670.35 4344 1574.4 116.5 114.9 1367.92 3002.74 
湖 北 1527 571.68 4685 849 120 116.6 1220.72 2391.42 
湖 南 1408 422.61 4797 1011.8 119 115.5 843.83 2195.7 
广东 2699 1639.83 8250 656.5 114 111.6 1396.35 5381.72 
广西 1314 382.59 5105 556 118.4 116.4 554.97 1606.15 
海 南 1814 198.35 5340 232:1 ii35 111.3 64.33 364.17 
川 1261 822.54 4645 902.3 118.5 117 1431.81 3534 
贵 州 942 150.84 4475 301.1 121.4 117.2 324.72 630.07 
云 南 1261 334 5149 310.4 i2i3 118.1 716.65 1206.68 
廿 藏 1110 17.87 7382 4.2 天 7 114.9 5:57 55.98 
陕 西 1208 300.27 4396 500.9 119 117 600.98 ”1000.03 
甘肃 1007 114.81 5493 507 119.8 116.5 468.79 553.35 
青 海 1445 47.76 5753 61.6 118 116.3 105.8 165.31 
地、 可 1355 61.98 5079 121.8 i 115.3 114.4 169.75 
新 疆 1469 376.95 5348 339 119.7 116.7 428.76 834.57 


在 构建 神经 网 络 模型 时 ， 设 “居民 消费 水 平 ” 为 I、“ 固 定 资产 投资 ”为 2、“ 职 工 
平均 工资 ”为 x3a、“ 货 物 周转 量 ” 为 x4、“ 居 民 消 费 价格 指数 ”为 xs、“ 商 品 零 售 价格 指 


神经 网 络 


数 ” 为 x\、“ 工 业 总 产值 ”为 x:， 作 为 神经 网 络 的 输入 ， 即 输入 层 节 点 数 为 7。 设 GDP 
为 y 作 为 网 络 的 输出 ， 即 输出 层 只 有 一 个 神经 元 。 
完整 的 数据 流 如 图 8.12 所 示 。 


经 济 发 展 基本 信息 .xls 。 ”类 型 


图 8.12 神经 网 络 训练 数据 流 


首先 , 将 “数据 源 ” 中 的 Excel 节点 添加 到 数据 流 区 域 , 并 将 “经 济 发 展 基本 信息 .xls” 
文件 加 载 到 该 节点 。 

向 数据 流 中 添加 “类 型 ”节点 ， 并 建立 从 “经 济 发 展 基本 信息 .xls” 节 点 到 “类 型 ” 
节点 的 连接 。 打 开 “ 类 型 ”节点 的 编辑 窗口 。 将 “地 区 ”字段 的 方向 设置 为 “无 ” 即 该 
字段 不 参与 建 模 ，GDP 方向 设置 为 “输出 ”， 其 他 字段 的 方向 为 “输入 ”。 然 后 单 击 “ 读 
取 值 ”按钮 ， 如 图 8.13 所 示 。 


| 回 @ 


"| 辆 e [> 该 取 入 | 洁 队伍 | 洁 除 所 有 信 
字段 类 型 值 7 检查 方向 
园地 区 集 "* 上 海 ". 无 全 无 
| 第 居民 消费 水 平 人 少 范 围 [942.0,5343.0] 无 疙 输入 
| 六 固定 资产 投资 人 少 范围 [17.87,1639.83] 无 六 输入 
过 职工 平均 工资 人 少 范 围 [0.0,9279.0] 无 疙 输入 
| 六 货 物 周转 量 人 少 范围 [4.2,2033.3] 无 必 输入 
| 各 居民 消费 价格 指数 放 范围 [113.5,121.4] 无 发 输入 
过 商品 委 售 价格 指数 懈 范围 [110.6,118.1] 无 六 输入 
(种 工业 总 产值 人 少 范 围 [0.0,2207.69] 无 六 输入 
堆 GDP 人 少 范围 [55.98,5381.72] 无 固 输出 
@ 查看 当前 字段 〇 查看 未 使 用 的 字段 设置 
类 型 | 格式 | 注解 


| ]| 本 |] 


8.13 ”设置 “类 型 ”节点 
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首先 构建 一 个 多 层 感 知 器 。 向 数据 流 中 添加 “神经 网 络 ” 建 模 节点 ， 建 立 从 “类 型 ” 
节点 到 该 建 模 节 点 的 连接 ， 然 后 打开 该 节点 的 设置 窗口 进行 设置 ， 在 “模型 ”标签 下 的 
设置 如 图 8.14 所 示 。 


图 8.14 建 模 节点 的 基本 设置 


首先 选中 “ 自 定义 ”模型 名 称 ， 并 在 文本 框 中 输入 “多 层 感知 器 ”， 把 该 建 模 节点 的 
名 称 改 为 “多 层 感 知 器 ”。 

单 击 “方法 ”下 拉 列 表 框 ， 可 以 看 到 一 共有 6 种 建 模 方法 : 快速 、 动 态 、 多 个 、 修 

(1) 快速 方法 (Quick Method)。 如 果 选 择 快速 方法 ， 在 默认 设置 下 ， 网 络 只 含有 
一 个 隐藏 层 ， 层 中 含有 max(3,(nitno)/20) 个 神经 元 ， 其 中 ni; 是 输入 节点 的 数量 ,no 是 输出 
神经 元 的 数量 。 网 络 训练 采用 误差 反 向 传播 算法 。 如 果 在 默认 设置 下 生成 的 神经 网 络 预 
测 精确 性 较 差 ， 可 以 尝试 在 “专家 ”选项 卡 上 增加 隐藏 层 的 大 小 ， 或 者 尝试 其 他 训练 
方法 。 

(2) 动态 方法 (Dynamic Method)。 如 果 选 择 动 态 方法 ， 在 训练 过 程 中 首先 创建 一 
个 最 简单 的 初始 拓扑 ， 然 后 尝试 着 不 断 将 神经 元 添加 到 网 络 中 以 提高 网 络 性 能 ， 直 到 达 
到 预期 的 精确 性 ， 以 寻找 一 个 最 优 的 网 络 拓扑 结构 〈 即 确定 合适 的 隐藏 层 数 以 及 各 隐藏 
层 包含 合适 的 神经 元 数量 )。 最 后 再 对 这 个 最 优 的 网 络 进行 训练 。 

(3) 多 个 方法 (Multiple Method)。 如 果 选 择 多 个 方法 ， 在 训练 过 程 中 首先 创建 多 
个 具有 不 同 拓扑 的 网 络 〈 确 切 数量 取决 于 训练 数据 ) 。 然 后 这 些 网 络 将 以 伪 并 行 的 方式 
进行 训练 。 在 所 有 网 络 训练 结束 后 ， 预 测 精确 性 最 高 的 那个 网 络 被 作为 最 后 的 模型 。 在 
默认 情况 下 《〈 用 户 没有 指定 网 络 结构 ) ，Clementine 将 采用 如 下 算法 来 创建 多 个 具有 不 


神经 网 络 


同 拓扑 的 网 络 : 

首先 生成 若干 个 网 络 ， 这 些 网 络 都 只 有 一 个 隐藏 层 ， 这 些 网 络 的 隐藏 层 包含 的 神经 
元 数量 分 别 为 3，4，7，12，…， 每 次 的 增 量 A; 在 上 一 次 增 量 Ai 上 加 2。 例 如 第 一 个 
网 络 的 隐藏 层 神经 元 数量 为 3， 第 二 个 网 络 的 隐藏 层 神经 元 数量 为 4， 所 以 Ai=4-3=1， 
那么 Axz=Ai+2=3， 所 以 第 三 个 网 络 的 隐藏 层 神经 元 数量 为 4+As=7， 以 此 类 推 ， 直 到 达到 
输入 节点 数量 〈 如 果 输 入 节点 数量 小 于 12， 那 么 隐藏 层 神经 元 数量 增加 到 12 为 止 ， 如 
果 输 入 节点 数量 大 于 60， 则 隐藏 神经 元 数量 不 超过 60 个 ) 。 

然后 ， 根 据 每 个 单 隐藏 层 网 络 生成 一 组 双 隐 藏 层 网 络 。 这 组 双 隐 藏 层 网 络 中 的 第 一 
个 隐藏 层 的 神经 元 数量 与 对 应 的 单 隐藏 层 网 络 所 含 神经 元 数量 相同 ， 第 二 个 隐藏 层 的 神 
经 元 数量 分 别 为 2，5，10，17,，…， 以 此 类 推 ， 每 次 的 增 量 A; 在 上 一 次 增 量 A; 1 上 加 2。 
用 户 也 可 以 不 采用 上 面 的 这 种 默认 的 方法 ， 自 行 指定 网 络 结构 ， 即 在 这 里 选择 多 重 
方法 ， 然 后 到 “专家 ”标签 下 去 对 “拓扑 ”进行 设置 。 例 如 ， 要 生成 具有 一 个 隐藏 层 ， 
其 中 隐藏 神经 元 分 别 为 10、12、14 和 16 个 的 网 络 ， 以 及 具有 两 个 隐藏 层 ， 其 中 隐藏 神 
经 元 分 别 为 10 个 和 7 一 10 个 的 网 络 ， 可 以 通过 输入 “10 16 2; 10, 7 10” 来 指定 。 

(4) 修剪 方法 (Prune Method)。 这 种 方法 与 动态 方法 恰好 相反 。 修 剪 方法 从 一 个 
较 大 的 网 络 开 始 ， 然 后 在 训练 过 程 中 逐渐 删除 隐藏 层 和 输入 层 中 最 差 的 节点 ， 从 而 找到 
最 优 的 网 络 结构 。 修 前 方法 通常 速度 较 慢 ， 但 相对 其 他 方法 产生 的 结果 要 好 。 用 户 可 以 
选择 这 种 方法 后 再 到 “专家 ”标签 下 对 修剪 方式 的 各 种 参数 进行 详细 的 设置 。 

(5) RBFN。 该 选项 用 于 构建 径 向 基 函 数 网 络 。 

(6) 穷 举 型 修剪 (Exhaustive Prune Method) 。 穷 举 型 修 前 是 修 前 方法 的 一 个 特例 ， 
其 修剪 方式 的 各 种 参数 都 是 确定 的 ， 例 如 初始 网 络 的 隐藏 层 为 两 层 ， 其 中 第 一 隐藏 层 含 
30 个 神经 元 ， 第 二 隐藏 层 含 20 个 神经 元 。 此 方法 通常 速度 最 慢 ， 训 练 时 间 可 能 很 长 ， 
尤其 对 于 较 大 数据 集 更 是 如 此 ， 但 产生 的 结果 往往 最 好 。 

本 例 中 选择 “快速 ”方法 。 

预防 过 度 训练 (Prevent Overtraining) 。 此 选项 会 将 数据 随机 分 割 为 两 部 分 〈 训 练 
集合 和 检验 集合 ) ， 以 便于 建 模 。 网 络 的 训练 基于 训练 集合 进行 ， 精 确 性 基于 检验 集合 
进行 估计 。 神 经 网 络 节点 的 “样本 %” 框 用 于 指定 训练 的 数据 比例 ， 其 余数 据 将 用 于 检 
验 精 确 性 。 本 例 中 ， 勾 选 “ 预 防 过 度 训练 ” 复 选 框 。 

设置 随机 数 种 子 (Set Random Seed) 。 如 果 不 设置 随机 数 种 子 ， 则 每 次 执行 节点 时 
用 于 初始 化 网 络 突 触 权 值 的 随机 值 的 序列 都 会 不 同 。 这 将 导致 即使 节点 设置 和 数据 值 都 
完全 相同 ， 节 点 也 会 在 不 同 的 运行 中 创建 不 同 的 模型 。 通 过 选择 该 选项 ， 可 以 将 随机 种 
子 设置 为 特定 值 ， 从 而 使 结果 模型 具有 精确 的 可 再 现 性 。 特 定 的 随机 种 子 通常 会 生成 相 
同 的 随机 值 序列 ， 在 这 种 情况 下 执行 节点 通常 会 产生 相同 的 生成 模型 。 本 例 中 ， 不 勾 选 
此 选项 。 

停止 条 件 (Stop On)。 该 选项 用 于 设 定 停止 训练 的 判定 标准 , 有 以 下 几 种 设 定 方法 : 

(1) 默认 值 (Default) 。 默 认 的 停止 条 件 是 根据 “持续 次 数 ” (Persistence) 来 决定 
何 时 停止 对 网 络 的 训练 。“ 持 续 次 数 ” 指 在 网 络 在 训练 中 没有 继续 得 到 改善 的 情况 下 会 
持续 训练 的 周期 数 。 值 越 高 越 有 助 于 网 络 避 兔 局 部 最 小 值 ， 但 这 样 也 会 延长 训练 时 间 。 
“持续 次 数 ” 可 以 由 用 户 在 “专家 ”标签 下 自行 设 定 。 
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(2) 准确 性 (Accuracy)。 如 果 使 用 此 选项 ,在 训练 过 程 中 的 每 一 轮 (周期 ) 结束 后 ， 
都 会 评估 网 络 当 前 的 预测 准确 性 ， 训 练 过 程 会 一 直 继 续 ， 直 到 网 络 当前 的 预测 准确 性 达 
到 用 户 设 定 的 准确 性 闵 值 。 如 果 准 确 性 一 直 无 法 达到 阔 值 ， 用 户 可 以 随时 中 断 训练 ， 以 
截止 到 目前 所 达到 的 最 佳 准确 性 保存 该 网 络 。 准 确 性 是 对 给 定数 据 集中 的 数据 进行 预测 
并 得 到 正确 结果 的 比例 度量 。 如 果 勾 选 了 “预防 过 度 训练 ” 复 选 框 ， 那 么 网 络 准 确 性 的 
计算 是 基于 测试 数据 集 的 ， 否 则 ， 网 络 准确 性 的 计算 基于 整个 训练 数据 集 。 另 外 ， 准 确 
性 的 计算 还 依赖 于 输出 字段 的 类 型 如 果 输 出 字段 是 离散 型 ， 准 确 性 是 预测 值 与 实际 值 
相符 的 记录 数 占 数据 集 记 录 数 的 比例 ， 如果 输出 字段 是 连续 型 ， 那 么 准确 性 的 计算 公 
式 为 : 


accuracy = | Lt 
Vi) 


其 中 , R 指数 据 集中 的 全 部 记录 ; 是 记录 7 的 输出 字段 的 实际 值 ，o; 是 网 络 对 记录 
7 的 输出 字段 的 预测 值 ;max(D 和 min(D) 分 别 是 输出 字段 在 数据 集 尺 中 的 最 大 值 和 最 小 值 ; 
办 是 尺 中 的 记录 数量 。 

如 果 有 多 个 输出 神经 元 ， 那 么 网 络 准确 性 就 是 所 有 输出 神经 元 准确 性 的 平均 值 。 

(3) 周期 (Cycles)。 如 果 使 用 此 选项 , 训练 将 持续 指定 的 周期 数 (传递 数据 的 次 数 ) 。 

(4) 时 间 (Time)。 如 果 使 用 此 选项 ， 训 练 将 持续 指定 的 时 间 长 度 (以 分 钟 为 单位 ) 。 
本 例 中 选择 此 选项 ， 设 定 为 0.15 分 钟 ， 即 9 秒 钟 。 

以 上 设置 完成 后 ， 切 换 到 “选项 ”标签 下 ， 进 行 如 图 8.15 所 示 的 设置 。 


人 @ Qlg 


口 潍 续 训 绕 现 有 模型 
站 使 用 二 进 制 集 编码 
V] 显示 反馈 图 形 
选择 : 回 使 用 最 佳 网 络 〇 使 用 最 终 网 络 
生成 日 志文 件 
日 志文 件 名 train .log | 


r 


字段 | 模型 | 选项 | 专家 | 分 析 
EE 
图 8.15 “选项 ”标签 下 的 设置 


在 “选项 ”标签 下 ， 勾 选 “ 显 示 反 馈 图 形 ” 复 选 框 ， 选 择 此 选项 ， 会 在 网 络 进行 学 
习 的 同时 ， 看 到 一 个 显示 网 络 准确 性 变化 情况 的 图 形 。 例 如 本 例 在 执行 时 生成 的 反馈 图 
形 如 图 8.16 所 示 。 

训练 结束 后 的 模型 有 两 种 选择 : 使 用 最 佳 网 络 〈Use Best Network) 、 使 用 最 终 网 
络 (Use Final Network) 。 默 认 情 况 下 ， 训 练 结 束 后 ， 节 点 会 将 最 佳 网 络 返 回 为 生成 的 
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网 络 节点 。 用 户 也 可 以 要 求 该 节点 返回 最 终 模 型 。 本 例 选 择 “ 使 用 最 佳 网 络 ” 单 选 按钮 。 


令 神经 网 络 “多 


层 感 知 器 ”性 能 


最 佳 预 则 精确 性 : 一 96.39% 
当前 预测 精确 性 : 一 一 92.48% 


图 8.16 ”网 络 准 确 性 的 反馈 图 形 


以 上 设置 完成 后 ， 切 换 到 “专家 ”标签 下 ， 进 行 如 图 8.17 所 示 的 设置 。 


8.17 多 层 感知 器 “专家 ”设置 


首先 将 “模式 ”设置 为 “专家 ”。 将 网 络 的 “隐藏 层 ” 设 置 为 二 层 〈 隐 藏 层 越 多 ， 越 
有 助 于 神经 网 络 了 解 更 复杂 的 关系 , 但 训练 时 间 也 会 随 之 越 长 ), 每 层 所 含 的 神经 元 数量 
均 为 10〈 隐 藏 神经 元 越 多 ， 越 有 助 于 了 解 复杂 的 任务 ， 但 如 同 增加 隐藏 层 一 样 ， 训 练 时 
间 也 会 随 之 延长 )“ 持 续 次 数 ”为 200《〈 值 越 高 越 有 助 于 网 络 避 免 局 部 最 小 值 ， 但 这 样 
也 会 延长 训练 时 间 )。 
“学 习 速 率 ”的 各 项 参数 设置 均 如 图 8.17 中 所 示 。 各 项 参数 的 含义 见 第 8.2.1 小 节 。 
以 上 设置 完成 后 ， 单 击 “ 执 行 ” 按 钮 ， 即 可 显示 如 图 8.16 


结束 后 ， 即 可 在 管理 


器 窗口 的 “模型 ”标签 下 显示 生成 的 “多 


所 示 的 反馈 图 形 ， 待 训练 
层 感知 器 ”网 络 模型 。 右 
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击 该 模型 ， 在 快捷 菜单 中 选择 “浏览 ”命令 ， 在 模型 标签 下 显示 变量 重要 性 ， 可 以 看 到 
“固定 资产 投资 ”对 预测 结果 的 影响 最 大 。 在 “汇总 ”标签 下 显示 汇总 信息 ， 如 图 8.18 
所 示 。 


贸 多 层 感知 器 
国文 件 ” 归 生成 ” 嘟 视 图 
四 ]| 品 折 委 全 部 ] 名 展开 全 部 | 


日 - 吕 分析 
一 -估计 的 准确 性 : 96.388 
-输入 层 :7 个 神经 元 
-隐藏 层 1:10 个 神经 元 


一 隐 若 层 210 个 神经 元 
… 输 出 层 :1 个 神经 元 
向 字段 


图 8.18 多 层 感知 器 模型 汇总 信息 


可 以 看 出 ， 本 次 训练 得 到 的 神经 网 络 预测 准确 性 为 96.388%。Clementine 并 没有 为 
我 们 显示 所 得 到 的 网 络 中 的 所 有 突 触 权 值 ， 不 过 这 并 不 重要 ， 因 为 我 们 无 法 对 网 络 结构 
以 及 各 突 触 权 值 的 实际 意义 进行 解释 ， 这 也 正 是 神经 网 络 的 缺点 之 一 。 

注意 , 同样 的 设置 下 , 再 次 进行 同样 的 训练 ( 即 再 次 执行 同一 个 神经 网 络 建 模 节点 )， 
可 能 得 到 的 结果 并 不 完全 相同 。 这 是 因为 在 训练 开始 时 ， 网 络 中 的 所 有 权 值 都 被 随机 地 
设置 为 一 个 属于 [-0.5,0.5] 的 值 ， 因 此 两 次 不 同 的 训练 中 ， 初 始 权 值 往往 是 不 同 的 。 

下 面 再 来 训练 一 个 RBF 神经 网 络 。 向 数据 流 中 再 添加 “神经 网 络 ” 建 模 节 点 ， 建 立 
从 “类 型 ”节点 到 该 建 模 节 点 的 连接 ， 然 后 打开 该 节点 的 设置 窗口 进行 设置 ， 在 “模型 
标签 下 ， 选 中 “ 自 定义 ”模型 名 称 ， 并 在 文本 框 中 输入 “RBFN”， 把 该 建 模 节点 的 名 称 
改 为 “RBFN”。 

单 击 “ 方 法 ”下 拉 列 表 框 ， 选 择 RBFN。 勾 选 “ 预 防 过 度 训 练 ” 复 选 框 ,“ 样 本 %?” 
设置 为 80。 停 止 条 件 选 择 “ 时 间 (分钟)”， 设 定 为 0.15。 

“选项 ”标签 下 的 设置 与 前 面 多 层 感知 器 的 设置 相同 。 

切换 到 “专家 ”标签 下 ， 可 以 设置 RBFN 专家 选项 ， 如 图 8.19 所 示 。 

图 中 各 参数 的 含义 见 第 8.2.2 小 节 。 

以 上 设置 完成 后 ， 单 击 “ 执 行 ” 按 钮 ， 即 可 显示 反馈 图 形 ， 待 训练 结束 后 ， 在 管理 
器 窗口 的 “模型 ”标签 下 显示 生成 的 RBFN 网 络 模型 。 同 样 ， 用 户 可 以 浏览 该 模型 的 
信息 。 

将 生成 的 两 个 神经 网 络 模型 添加 到 数据 流 区 域 ， 并 建立 从 类 型 到 这 两 个 模型 节点 的 
连接 ， 即 可 将 模型 用 于 对 整个 数据 集 的 预测 ， 在 模型 节点 后 面 添加 “ 表 ” 节 点 并 执行 ， 
即 可 显示 预测 结果 。 多 层 感知 器 的 预测 结果 如 图 8.20 所 示 。 
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polnolnninnionl 


选项 | 专家 | 分 析 | 注解 


Ce eed Cad [em] 至 


图 8.19 RBFN 专家 设置 


En Dm On 


货物 .| 居民 消费 价 ... | 商品 零售 价 .| 工业 总 .| ”GDP $N-GDP 


1 14.000 373.9， 117.300 112.600 843.430 1394.890 1613.522| 司 

2 )1.000 342.8... 115.300 110.600 582.510 920.110 887.572|9 

3 89.000 2033.. 115.200 115.800 1234.8.. 2849.520 3092.532[ 

4 ?1.000 717.3 116.900 115.600 697.250 1092.480 1326.008[® 

5 4.000 781.7. 117.500 116.800 419.390 832.880 1129.492 

6 1.000 1371.... 116.100 114.000 1840.5... 2793.370 3081.111 

省 0.000 497.4 115.200 114.200 762.470 1129.200 1366.183 

8 15.000 824.8. 116.100 114.300 1240.3.. 2014.530 1754.153 

9 |9.000 207.4 118.700 113.000 1642.9.，2462.570 2667.412 

10 13.000 1025… 115.800 114.300 2026.6.，5155.250 5217.210 

11 9.000 754.4… 116.600 113.500 916.590 3524.790 3781.041 

12 )9.000 908.3.. 114.800 112.700 824.140 2003.580 2273.373 

13 j7.000 609.3. 115.200 114.400 433.670 2160.520 2114.773| 丁 
1 总 

表 | 注解 


图 8.20 多 层 感知 器 预测 结果 
图 中 ， 列 SN-GDP 即 为 预测 结果 。 


3 ) Kohonen 网 络 


Kohonen 网 络 是 一 种 自 组 织 神经 网 络 ， 是 无 监督 学 习 的 神经 网 络 模型 ， 采 用 了 竞争 
型 的 学 习 机 制 ， 可 以 对 外 界 未 知 环 境 进 行 学 习 或 模拟 ， 并 对 自身 网 络 结构 进行 适当 的 


虽然 多 层 感 知 器 、RFBN 等 前 向 网 络 得 到 了 广泛 的 应 用 ， 但 其 实 它 们 并 没有 充分 借 
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鉴 人 脑 的 工作 特点 ， 因 而 其 功能 还 有 许多 不 足 之 处 。 例 如 ， 前 向 网 络 在 训练 过 程 中 所 有 
权 值 都 要 调整 ， 存 在 稳定 性 及 学 习 速 度 等 问题 ， 还 可 能 陷入 均 方 误差 的 局 部 最 小 点 ， 从 
而 造成 错误 的 求解 结果 ， 另 外 ， 前 向 网 络 往往 只 适用 于 平稳 的 环境 ， 不 能 随 环境 的 变化 
而 进行 相应 的 调整 或 改变 。 

其 实 ， 人 脑 可 以 在 一 个 复杂 的 、 有 干扰 的 环境 中 辨识 学 习 的 目标 并 学 习 大 量 知识 ， 
这 种 学 习 方 式 是 自主 的 ， 是 不 受 导 师 明确 指导 的 “自学 ”。 同 时， 人 脑 在 学 习 过 程 中 是 有 
所 侧重 的 ， 有 些 知识 会 学 习 并 记忆 得 很 牢 ， 也 能 够 忽略 或 忘记 那些 无 关 紧要 的 信息 。 人 
能 够 专注 于 某 些 客体 或 者 某 些 关系 ， 而 置 其 他 于 不 顾 或 者 不 给 予 足够 的 重视 。 

根据 人 脑 的 这 些 特点 ， 人 们 研究 了 更 加 接近 于 人 脑 工作 特性 的 人 工 神 经 网 络 模型 ， 
这 就 是 自 组织 神 经 网 络 ， 也 称 为 竞争 神经 网 络 。 

自 组 织 神经 网 络 是 以 自 组 织 学 习 方 式 进行 学 习 的 ， 其 目的 是 在 无 导师 指导 下 寻找 输 
入 数据 空间 中 的 重要 的 模式 或 特征 。 自 组 织 学 习 的 网 络 结构 模型 ， 比 有 监督 学 习 的 网 络 
结构 模型 更 加 接近 生物 神经 系统 , 因为 网 络 的 自 组 织 过 程 正 是 人 脑 组 织 的 一 个 基本 现象 。 

自 组织 学 习 ， 也 称 竞争 学 习 ， 是 指 在 同一 层 上 的 神经 元 之 间 相互 进行 竞争 ， 只 有 竞 
争 胜 利 的 神经 元 才 修 改 与 其 相连 的 权 值 。 这 种 机 制 可 以 用 来 进行 模式 分 类 。 竞 争 学 习 是 
-种 无 监督 的 学 习 。 在 无 监督 学 习 中 ， 只 向 网 络 提供 一 些 学 习 样本 ， 而 没有 期 望 输出 。 
网 络 根据 输入 样本 进行 自 组 织 ， 并 将 其 划分 到 相应 的 模式 类 别 中 。 由 于 不 需要 提供 理想 
输出 ， 因 而 推广 了 有 监督 模式 分 类 方法 。 

基本 的 自 组 织 学 习 网 络 由 两 个 层次 组 成 , 即 输入 层 和 竞争 层 (输出 层 )。 在 竞争 层 中 ， 
神经 元 之 间 相 互 竞争 ， 最 终 只 有 一 个 或 几 个 神经 元 活跃 ， 以 适应 当前 的 输入 样本 。 竞 争 
胜利 的 神经 元 就 代表 着 当前 输入 样本 的 分 类 模式 。 

以 竞争 神经 网 络 为 基础 ， 可 以 构成 一 些 具有 自 组 织 能 力 的 神经 网 络 ， 如 自 适 应 共振 
理论 (Adaptive Resonance Theory，ART) 网 络 、 自 组 织 特 征 映射 (Self-Organizing Feature 
Map, SOM) 网 络 、 主 分 量 分 析 (Principle Components Analysis, PCA ) 网 络 、 对 传 (Counter 
Propagation，CP) 网 络 和 协同 神经 网 络 (Synergetic Neural Network，SNN) 等 。 其 中 ， 
自 组 织 特征 映射 网 络 就 是 本 节 要 介绍 的 Kohonen 网 络 。 


自 组 织 特征 映射 网 络 也 称 为 Kohonen 网 络 ， 由 芬兰 学 者 Teuvo Kohonen 于 1981 年 
提出 。 


1. 基本 原理 


Kohonen 认为 ， 处 于 空间 中 不 同 区 域 的 神经 元 有 不 同 的 分 工 ， 当 一 个 神经 网 络 接受 
外 界 输入 模式 时 ， 将 会 分 为 不 同 的 反应 区 域 ， 各 区 域 对 输入 模式 具有 不 同 的 响应 特征 。 
另外 ， 神 经 元 的 响应 会 对 其 周边 的 其 他 神经 元 产生 交互 的 影响 ， 也 就 是 相 邻近 的 神经 元 
之 间 的 局 部 交互 ， 其 交互 方式 为 侧 向 交互 。 这 种 侧 向 交互 方式 遵从 下 列 有 关 规则 : 

(1) 以 发 出 信号 的 神经 元 为 圆心 , 对 近邻 的 神经 元 的 交互 作用 表现 为 兴奋 性 侧 反 馈 。 


(2) 以 发 出 信号 的 神经 元 为 圆心 , 对 远 邻 的 神经 元 的 交互 作用 表现 为 抑制 性 侧 反馈 。 
这 种 规则 说 明 近 邻 者 相互 激励 ， 远 邻 者 相互 抑制 。 一 般 而 言 ， 近 邻 是 指 从 发 出 信号 
的 神经 元 为 圆心 ， 半 径 约 为 50 一 500hm 左右 的 神经 元 ; 远 邻 是 指 半径 为 200hm 一 2mm 
左右 的 神经 元 。 比 远 邻 更 远 的 神经 元 则 表现 的 是 弱 激 励 作 用 。 这 样 ， 这 种 局 部 交互 方式 


函数 形式 来 表示 如 图 8.21 所 示 。 
所 以 也 称 为 “墨西哥 草帽 函数 ”。 


神经 网 络 


1 于 这 种 交互 作用 的 曲线 类 似 于 墨西哥 人 戴 的 帽子 ， 


下 
交互 作用 


侧 向 距离 


图 8.21 墨西哥 草帽 函数 


神经 网 络 中 ， 邻 近 的 各 个 神经 元 之 间 通 过 相互 的 侧 向 交互 作用 ， 从 而 产生 相 竞争 的 
过 程 ， 自 适应 地 形成 了 针对 特殊 信息 的 组 织 结构 。 很 明显 ， 这 种 结构 可 以 成 为 检测 特殊 
信息 的 特殊 检测 器 。 这 样 ， 神 经 网 格 的 自 组 织 过 程 和 行为 ， 可 以 成 为 一 种 检测 各 种 不 同 
信息 模式 的 检测 相识 别 器 。 这 也 是 自 组 织 特征 映射 的 意义 所 在 。 


2.Kohonen 网 络 结构 


Kohonen 网 络 可 以 用 二 维 阵 列表 示 ， 这 种 结构 如 图 8.22 所 示 。 


8.22 ”二 维 阵列 Kohonen 网 络 
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Kohonen 网 络 由 输入 层 和 竞争 层 组 成 。 输 入 层 是 一 维 的 神经 元 ， 竞 争 层 是 二 维 的 神 
经 元 。 一 个 输入 层 的 神经 元 和 竞争 层 的 所 有 神经 元 都 相互 连接 (全 连接 ), 每 个 连接 都 有 
一 个 相应 的 权 值 。 竞 争 层 也 称 输出 层 。 

在 竞争 层 中 ， 每 个 输出 神经 元 都 和 最 近 相 邻 的 8 个 神经 元 相连 ， 当 然 ， 最 边沿 的 神 
经 元 和 3 一 5 个 神经 元 相连 ， 但 这 只 是 最 边沿 的 神经 元 才 会 这 样 。 

设 输入 层 由 天 个 神经 元 组 成 ， 输 出 层 由 J7 个 神经 元 组 成 ， 一 个 输入 层 神经 元 下 与 一 
个 输出 层 神经 元 的 连接 权 值 记 为 wi 


3. Kohonen 网 络 学 习 算 法 


在 网 络 训练 之 初 ， 先 将 所 有 权 值 初始 化 为 一 个 小 的 随机 值 。 
下 面 的 学 习 过 程 分 为 3 个 步骤 竞争、 确定 邻 域 、 更 新 权 值 。 
(1) 竞争 
竞争 的 过 程 就 是 在 输出 层 神经 元 中 确定 获胜 神经 元 的 过 程 ， 输 出 最 大 的 神经 元 就 是 
获胜 神经 元 。 由 于 输出 层 神经 元 的 激励 函数 为 线性 函数 ， 其 最 大 输出 取决 于 其 输入 。 
当 输入 样本 ;( 含 天 个 字段 ) 时 ， 输 出 神经 元 /的 输入 为 ; uu = 立 xx ， 其 中 ,x 
k=1 


是 输入 层 的 神经 元 的 输入 〈 即 样本 i 的 第 个 字段 的 值 )， 如 图 8.23 所 示 。 


Xn 和 Xik Xk 输入 样本 i 


图 8.23 输出 层 神 经 元 的 输入 


显然 ， 志 也 可 以 表示 为 输入 向 量 生 =[6,%%2,…,Xix 了 与 权 值 向 量 W =[weywpor, …， 
wx] 的 内 积 ， 等 价 于 输入 向 量 和 权 值 向 量 的 欧 氏 距离 最 小 。 当 输入 样本 i 时 ， 输 出 神经 
元 j 的 输入 向 量 和 权 值 向 量 的 欧 氏 距离 为 : 


= [> jx) 


计算 输出 层 J 个 神经 元 的 这 个 欧 氏 距离 ， 距 离 最 小 的 那个 神经 元 即 为 获胜 神经 元 。 

(2) 确定 邻 域 

在 上 一 步骤 中 已 经 确定 了 获胜 神经 元 , 这 里 3 把 获胜 神经 元 称 为 “加强 中 心 ” 现在， 
要 确定 一 个 以 “加 强 中 心 ” 为 中 心 的 邻 域 。 与 前 面 介绍 的 前 向 网 络 不 同 ，Kohonen 网 络 
在 训练 过 程 中 只 更 新 邻 域 中 的 神经 元 的 权 值 ， 而 不 是 更 新 所 有 神经 元 的 权 值 。 


神经 网 络 


通常 采用 正方 形 的 邻 域 形状 。 当 邻 域 半 径 为 0 时 ， 邻 域 仅仅 包含 获胜 神经 元 。 当 邻 
域 半径 为 1 时 ， 邻 域 包含 了 获胜 神经 元 以 及 与 之 相 邻 的 8 个 神经 元 。 当 半径 增 大 时 ， 邻 
域 包含 的 神经 元 逐渐 增多 。 

设 获胜 神经 元 为 C, 在 第 n 次 迭代 时 的 邻 域 半径 记 为 Nc(n)。 邻 域 半径 的 值 随 着 迭代 
次 数 的 增加 而 变化 ， 其 变化 规则 为 

Ne(n)=INT(Ne (OQ =—n/N), n=0,12,,N 

其 中 , NA0) 表 示 初 始 设 置 的 邻 域 半径 ,为 总 的 迭代 次 数 ，INT 为 取 整 函数 。 显 然 ， 

邻 域 随 着 迭代 次 数 的 增加 而 不 断 变 小 。 图 8.24 显示 了 邻 域 Nec 随 迭代 次 数 的 变化 情况 。 


N12) 


Ne(1-3) 


图 8.24 邻 域 Nc 随和 迭代 次 数 变化 


从 图 中 可 以 看 出 NAt-1) 的 范围 比 NAt-2) 要 小 ， 当 到 达 次 数 1 时 ， 邻 域 Ne(D) 则 处 在 
神经 元 C 处 。 

在 Clementine 中 ， 对 于 获胜 神经 元 o， 如 果 其 邻近 的 神经 元 o 满足 qc(osoj)<r, 7 是 
邻 域 半径 ， 就 认为 神经 元 o 在 以 oi 为 中 心 的 邻 域 内 ， 这 里 ，cc 是 基于 切 比 雪夫 距离 
(Chebychev Distance) 的 邻 域 函数 : 

de(%,y)=max |% —»| 

代表 了 神经 元 x 和 神经 元 y 在 任 一 维度 上 的 最 大 距离 ， 其 中 , x; 是 神经 元 x 在 维度 
i 上 的 位 置 ，y; 是 神经 元 yy 在 维度 i 上 的 位 置 。 

(3) 更 新 权 值 

对 于 获胜 神经 元 及 其 邻 域内 的 神经 元 ， 它 们 的 权 值 要 被 更 新 。 例 如 邻 域内 的 神经 元 
J， 在 第 二 1 次 迭代 中 ， 更 新 前 的 权 值 向 量 为 到 (t)， 更 新 后 的 权 值 向 量 为 

W(t+D)=W (D+AW,(D) 
其 中 ，A 表 (DO=7( 帮 (人 - 万 (D) ，7 是 学 习 率 参数 ，Jj(1) 是 神经 元 j 的 输入 向 量 。 

在 每 一 次 迭代 结束 时 ， 学 习 率 参数 7 的 值 也 被 更 新 。 在 训练 过 程 中 ，; 的 值 随和 迭代 
次 数 的 增加 而 递减 ， 变 化 的 规则 可 以 采用 下 式 : 


m0=n0) [1-7], 1=0.1.2..,6 
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式 中 ，7(0) 为 初始 学 习 速 率 ( 由 用 户 设 定 )，c 为 总 迭代 次 数 ，t 为 当前 迭代 次 数 。 
在 Clementine 中 则 有 两 种 递减 的 方式 可 以 选择 : 
@ 线性 递减 。Clementine 默认 的 递减 方式 就 是 线性 递减 。 在 这 种 方式 下 ，7 每 次 递 


减 一 个 固定 的 数值 ， 计 算 公式 为 
n(t+D)=n(7) 
其 中 ，w(0) 为 初始 学 习 速 率 ， 坟 代表 7 的 最 小 值 ， 也 就 是 递减 到 轴 。。 后 ， 和 迭代 停止。 
@ 指数 递减 。 在 这 种 方式 下 ， 每 次 递减 一 个 固定 的 比例 ， 计 算 公式 为 : 
e208 
CHD=7IO-e| 一 2 


这 里 ，7ev 的 最 小 值 为 0.0001， 以 避免 在 进行 对 数 运 算 时 发 生 算术 错误 


上 


在 Clementine 中 ，Kohonen 网 络 被 用 于 聚 类 分 析 ， 因 此 Clementine 将 其 划分 到 了 聚 
类 方法 中 。 但 由 于 涉及 了 神经 网 络 的 知识 , 所 以 将 Kohonen 网 络 的 应 用 放 在 这 里 来 介绍 。 
本 节 在 Clementine 中 用 Kohonen 网 络 对 第 4.2.3 节 中 的 液体 饮料 聚 类 分 析 实 例 进 行 
数据 挖掘 。 样 本 数据 集 在 表 4-3 中 。 
] Kohonen 网 络 对 液体 饮料 进行 聚 类 分 析 的 数据 流 如 图 8.25 所 示 。 


® \&) 
上 
Ea py” 
Kohonen 表 


图 8.25 ”Kohonen 网 络 聚 类 分 析 数 据 流 


首先 在 数据 流 区 域 添加 Excel 数据 源 节点 并 导入 “饮料 .xls” 文 件 ， 在 该 节点 将 “ 编 
号 ”属性 过 滤 。 然 后 添加 “类 型 ”节点 ， 并 读 取 值 。 注 意 ， 在 “类 型 ”节点 无 需 指 定 输 
出 字段 〈 所 有 字段 均 为 输入 字段 )， 因 为 Kohonen 网 络 的 训练 是 一 种 无 监督 学 习 ， 不 用 
于 预测 目标 字段 ， 而 是 试图 揭示 输入 字段 集中 的 模式 。 
在 数据 流 区 域 添加 Kohonen 节点 ， 并 建立 从 “类 型 ”节点 到 Kohonen 节点 的 连接 ， 
然后 编辑 Kohonen 节点， 如 图 8.26 所 示 。 
在 “模型 ”标签 下 ， 勾 选 “ 显 示 反 馈 图 形 ” 复 选 框 ， 选 择 此 选项 ， 会 在 训练 期 间 显 


册 oo 中 


神经 网 络 


示 二 维 数组 的 直观 表示 。 每 个 节点 (代表 一 个 输出 层 的 神经 元 的 强度 用 颜色 表示 。 红 
色 表 示 聚 集 了 许多 记录 的 单元 〈 强 单元 ) ， 白 色 表 示 聚 集 的 记录 较 少 或 没有 记录 的 单元 
〈 弱 单元 ) 。 注 意 ， 此 功能 会 减 慢 训 练 进度 。 要 加 快 训练 进度 ， 可 取消 选中 此 复 选 框 。 例 
如 本 例 在 执行 时 生成 的 反馈 图 形 如 图 8.27 所 示 。 


售 Kohonen 


| 


模型 名 称 : (G) 自动 〇 ) 自 定义 | 
使 用 分 区 数据 
继续 训 绑 现 有 模型 显示 反馈 图 形 
止 。 加 默 认 值 

回 时 间 份 钟 ) 
设置 随机 数 种 子 。 种子 
优化。 加 速 度 回 内 存 


字段 | 模型 | 专家 | 注解 | 
[|w35 |[ 取 汉 


图 8.26” ”Kohonen 网络 模型 基本 设置 


会 Kohonen 网 络 训练 : Eohonen 


图 8.27 Kohonen 网 络 反馈 图 形 


停止 条 件 (Stop On) 有 两 个 选项 : 默认 、 时 间 。 在 默认 情况 下 ， 网 络 训练 将 在 完 
指定 迭代 次 数 之 后 停止 。 如 果 选 择 “时 间 ”， 网 络 训练 将 在 指定 时 间 长 度 〈 分 钟 ) 之 后 
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停止 〈 或 者 尚未 达到 指定 时 间 长 度 但 已 完成 指定 迭代 次 数 也 将 停止 ) 。 
切换 到 “专家 ”标签 下 ， 选 择 “专家 ”模式 。 相 应 设置 如 图 8.28 所 示 。 


舍 Kohonen 


再 
回 线性 〇 指数 

ae 2 ls Eta: T a: 20 和 月 

阶段 

im 1 eta: Si 150 辐 


字段 | 模型 | 专家 | 注解 
Le] a 


图 8.28 ”Kohonen 网 络 模型 高 级 设置 


对 “宽度 ”和 “长 度 ” 进 行 设置 。 将 二 维 输出 图 的 大 小 《宽度 和 长 度 ) 指定 为 每 个 
维 上 的 输出 单元 数 ， 实 际 上 指定 了 输出 层 神经 元 的 数量 ， 这 里 设置 宽度 为 3， 长 度 为 2， 
所 以 输出 层 神 经 元 数量 为 6。 

学 习 速 率 衰减 (Learning Rate Decay) 选择 “线性 ” (Linear) 。 

阶段 1 和 阶段 2 (Phase 1 and Phase 2) : Kohonen 网 络 训练 分 为 两 个 阶段 。 阶 段 1 
是 粗略 估计 阶段 ， 用 于 捕获 数据 中 的 大 致 模式 。 阶 段 2 是 调整 阶段 ， 用 于 调整 图 以 便 为 
数据 更 精细 的 特征 建 模 。 每 个 阶段 都 有 以 下 3 个 参数 : 

(1) 近邻 (Neighborhood) 。 这 里 的 近邻 也 就 是 前 文中 讲 到 的 “ 邻 域 ”， 这 里 该 参 
数 设置 的 是 邻 域 半径 的 起 始 大 小 。 

在 阶段 1， 邻 域 半径 从 起 始 大 小 ( 即 [阶段 1 近邻 ]， 本 例 中 设置 为 2) 开始， 随和 迭代 
次 数 逐 渐 减 小 ， 直 到 减 小 到 [阶段 2 近邻 ]+ 1) 。 然 后 在 阶段 2， 邻 域 半径 起 始 为 [阶段 
2 近邻 ]， 然 后 减少 到 1.0。[ 阶 段 1 近邻 ] 应 大 于 [阶段 2 近邻 ]。 

(2) 初始 Eta (Initial Eta) ， 即 7(0) 。 在 阶段 1，7(0) 为 [阶段 1 初始 Etal] (这 里 设 
置 为 0.3) ， 开 始 训练 后 ，; 逐渐 减 小 到 [阶段 2 初始 Eta]。 在 阶段 2，7(0) 为 [阶段 2 初 
始 Eta]， 然 后 减少 到 0。[ 阶 段 1 初始 Eta] 应 大 于 [阶段 2 初始 Eta]。 

(3) 周期 (Cycles》， 为 训练 的 每 个 阶段 设置 迭代 次 数 。 每 个 阶段 均 会 进行 指定 次 
数 的 数据 处 理 。 

以 上 设置 完毕 后 ， 单 击 “ 执 行 ” 按 钮 ， 即 可 在 管理 器 窗口 的 “模型 ”标签 下 显示 和 
成 的 Kohonen 模型 守 。 右 击 生成 的 Kohonen 模型 节点 , 在 快捷 菜单 中 选择 “浏览 ”命令 ， 
打开 Kohonen 对 话 框 ， 在 模型 标签 下 《〈 如 图 8.29 所 示 ) 可 以 看 到 ，Kohonen 网 络 将 15 
个 样本 划分 为 了 3 个 聚 类 ， 单 击 “ 全 部 展开 ”按钮 ， 则 可 以 显示 每 个 聚 类 的 一 些 统计 


神经 网 络 


加 Kohonen 


国文 件 昌 ”女生 成 人) 


EMIIES 怠 全 部 折 委 (Q) | 名 全 部 展开 加 


国贸 六 0,Y=0 4 记录 


生 次 1, Y=0: 6 记录 
生 次 2,Y=0: 5 记录 


模型 | 查看 器 | 汇总 | 注解 | 


图 8.29 聚 类 的 统计 信息 
例如 第 一 个 聚 类 ， 由 咎 0、 玫 0 所 代表 的 那个 神经 元 来 表示 (和 了 是 输出 层 网 格 
上 的 坐标 轴 )， 该 聚 类 包含 4 个 样本 。 
单 击 “ 查 看 器 ”标签 ， 可 以 以 图 表 的 形式 来 显示 模型 的 统计 信息 以 及 各 个 属性 在 各 
聚 类 中 的 分 布 信息 ， 如 图 8.30 所 示 。 
园 Kohonen 
文件 中 训 生 成 (Q) 


四 QR 回 -P] 国 昌 面 习 图 加 加 


Kohonen 


Kohonen 


会 ;-005 
>=0.90 
国 o 


X=1, =0 | x=2,. Y=0 | x=0,Y=0 更 要 作 
全 术 名 


8.30 ”模型 的 “查看 器 ”标签 


图 中 各 元 素 所 代表 的 含义 请 参考 第 4.2.3 节 。 
最 后 ， 在 “汇总 ”标签 中 ， 会 显示 关于 本 次 训练 过 程 中 的 一 些 概要 信息 。 
将 生成 的 Kohonen 模型 拖 入 到 数据 流 区 域 , 并 建立 从 “类 型 ”节点 到 该 节点 的 连接 ， 


数据 挖掘 算法 与 Clementine 实践 


然后 在 模型 节点 后 添加 “ 表 ” 节 点 ， 执 行 “ 表 ” 节 点 ， 即 可 看 到 对 样本 数据 集 进行 聚 类 
的 结果 ， 如 图 8.31 所 示 。 


国 表 (7 个 字段 ，15 条 记录 ) #4 
国文 件 口 “ 门 编 旨 日 ”也 生成 oO 国 芭 可 约 


C D $KCKohonen 
40.8. 448.7... 0.012 
42.6... 467.3. 0.008 

12.8... 325.6.. 0.004 
9.180 369.8. 0.005 
57.6. 556.5... 0.018 
36.1... 425.7... 0.003 
10.8... 348.7. 0.002 
47.7. 540.1 0.017 
38.2.… 424.4.. 0.001 
34.2... 405.6... 0.008 
17.3... 346.0... 0.000 
33.6... 443.2.. 0.001 

. 40.0… 516.7.. 0.012 
40.1... 530.8... 0.014 
33.0... 445.8... 0.004 


图 8.31 ” Kohonen 模型 的 聚 类 结果 


可 以 看 到 ， 在 聚 类 结果 中 有 两 列 数据 : SKX-Kohonen、S$KY-Kohonen， 分 别 是 输出 
层 网 格 上 的 瑟 轴 坐标 和 了 工 轴 坐标 。 

所 以 ， 代 表 3 个 聚 类 的 神经 元 的 坐标 以 及 所 含 样本 分 别 为 : 

聚 类 1: (2,0) ” 含 5 个 样本 : 1、5、8、13、14 

聚 类 2: (1,0) ” 含 6 个 样本 : 2、6、9、10、12、15 

聚 类 3: (0,0) ” 含 4 个 样本 : 3、4、7、11 


第 9 人 革 时 间 序 列 分 析 与 预测 


CD 时 间 序 列 概述 


时 间 序 列 分 析 (Time series analysis) 是 一 种 广泛 应 用 的 数据 分 析 方法 ， 主 要 用 于 描 
述 和 探索 现象 随时 间 发 展 变化 的 数量 规律 性 。 近 年 来 ， 时 间 序 列 挖掘 在 宏观 经 济 预测 、 
市 场 营 销 、 金 融 分 析 等 领域 得 到 应 用 。 时 间 序 列 分 析 通 过 研究 信息 的 时 间 特 性 ， 深 入 洞 
悉 事物 发 展 变化 的 机 制 ， 成 为 获得 知识 的 有 效 途径 。 


时 间 序 列 是 一 种 常见 的 数据 形式 。 同 一 现象 在 不 同时 间 的 相继 观察 值 排列 而 成 的 序 
列 ， 称 为 时 间 序 列 。 根 据 观 察 时 间 的 不 同 ， 时 间 序 列 中 的 时 间 可 以 是 年 份 、 季 度 、 月 份 
或 其 他 任何 时 间 形 式 。 用 上 表示 所 观察 的 时 间 ， 了 0 表示 在 时 间 上 的 观察 值 。 

时 间 序 列 在 长 时 期 内 呈现 出 来 的 某 种 持续 增长 或 者 持续 下 降 的 变动 ， 称 为 趋势 
(trend)。 

时 间 序 列 可 以 分 为 平稳 序列 和 非 平稳 序列 。 其 中 ， 基 本 上 不 存在 趋势 的 序列 ， 称 为 
“平稳 序列 ”(Stationary Series); 包含 趋势 性 、 季 节 性 或 周期 性 的 序列 ， 称 为 “ 非 平稳 序 
列 ”(Non-stationary Series ) 。 

平稳 序列 的 各 观察 值 基本 上 在 某 个 固定 的 水 平 上 波动 ， 虽 然 在 不 同 的 时 间 段 波动 的 
程度 不 同 ， 但 并 不 存在 某 种 规律 ， 其 波动 可 以 看 成 是 随机 的 。 非 平稳 性 序列 则 可 能 包含 
着 某 种 趋势 ， 或 者 多 种 趋势 的 组 合 。 

对 于 非 平稳 序列 来 说 ， 其 趋势 是 由 于 某 种 固定 性 的 因素 作用 于 序列 而 形成 的 ， 其 趋 
势 可 以 是 线性 的 ， 也 可 以 是 非 线性 的 。 

如 果 时 间 序 列 在 一 年 内 重复 出 现 周期 性 的 波动 ， 则 称 该 序列 具有 季节 人 性 
(seasonality)。 注 意 ， 这 里 的 “季节 ”含义 是 广义 的 。 它 不 仅仅 指 一 年 中 的 四 季 ， 而 是 泛 
指 任 何 一 种 周期 性 的 变化 ， 如 “旅游 旺季 ”“ 销 售 淡季 ”等 。 

如 果 时 间 序 列 长 期 (而 非 一 年 呈现 出 一 种 波浪 形 或 振荡 式 变 动 ， 则 称 该 序列 具有 
周期 性 (cyclity)。 周 期 性 变动 不 同 于 趋势 变动 ， 不 是 朝 着 一 个 方向 持续 增 大 或 减 小 ， 也 
不 同 于 季节 变动 ， 季 节 变 动 有 比较 固定 的 规律 ， 且 变动 周期 大 多 为 一 年 ， 周 期 性 变动 没 
有 固定 规律 ， 变 动 周期 多 在 一 年 以 上 ， 且 周期 长 短 不 一 。 
另外 ， 有 些 偶 然 因 素 也 对 时 间 序 列 产生 影响 ， 导 致 时 间 序 列 呈 现 出 某 种 随机 波动 ， 
称 为 随机 性 (random)。 

对 于 平稳 序列 以 及 各 种 具有 不 同 特 性 的 非 平稳 序列 ， 对 它们 的 分 析 方 法 各 不 相同 。 
因此 ， 在 进行 序列 分 析 之 前 ， 有 必要 根据 数据 先 作 出 散 点 图 或 采用 其 他 分 析 方 法 ， 分 析 
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这 个 序列 是 平稳 序列 还 是 非 平稳 序列 (以 及 具有 何 种 特性 的 非 平稳 序列 ), 然后 选择 合适 
的 分 析 方 法 。 


1， 简 单 平均 法 


根据 过 去 已 有 的 + 期 观察 值 通过 简单 平均 来 预测 第 t+1 期 的 数值 ， 这 种 预测 方法 称 
为 简单 平均 法 。 
设 时 间 序 列 已 有 的 上 期 观察 值 为 1), Y(2), …, Y(D， 那 么 对 第 #+1 期 的 预测 值 为 : 


$=) + YO) + + 7 = DY) 
i=1 


当 得 到 第 4+1 期 的 实际 值 后 ， 可 计算 出 第 #+1 期 的 预测 误差 为 ， ea, = ZU +D - 半 ，。 

简单 平均 法 适合 对 较为 平稳 的 时 间 序列 进行 预测 ， 即 当时 间 序 列 没有 趋势 时 ， 该 方 
法 比较 好 。 但 如 果 时 间 序列 有 趋势 或 季节 性 时 ， 该 方法 的 预测 不 够 准确 。 此 外 ， 简 单 平 
均 法 将 远 期 的 数值 和 近期 的 数值 看 做 对 未 来 的 预测 同等 重要 。 但 从 预测 角度 来 看 ， 近 其 
的 数值 通常 要 比 远 期 的 数值 对 预测 结果 影响 更 大 。 


2， 移 动 平均 法 


通过 对 时 间 序 列 逐 期 递 移 求 得 平均 数 作为 预测 值 ， 这 种 预测 方法 称 为 移动 平均 法 。 
它 是 对 简单 平均 法 的 改进 ， 可 分 为 简单 移动 平均 法 和 加 权 移 动 平均 法 。 

(1) 简单 移动 平均 法 

简单 移动 平均 法 是 把 第 t+1 期 之 前 最 近 的 了 期 数据 加 以 平均 作为 第 二 1 期 的 预测 值 ， 
这 里 T<tt1: 


六 =4O+Y0 -D+ tT += itD 


了 称 为 移动 周期 。 
同 理 ， 第 t+2 期 的 预测 值 为 


了 = DY + tT + i) 
移动 平均 法 只 使 用 最 近 了 期 的 数据 ， 所 以 在 应 用 时 关键 是 确定 合理 的 移动 周期 7， 
对 于 同一 个 时 间 序 列 ， 采 用 不 同 的 移动 周期 ， 预 测 的 准确 性 是 不 同 的 。 移 动 周 期 了 的 选 
择 可 用 MSE 检验 法 来 确定 。 首 先 计算 在 各 种 不 同 周期 了 的 情况 下 预测 的 均 方 误差 ， 它 
是 预测 误差 平方 和 的 平均 数 : 


n 
2 0-7T 
MSE = i=T+1 
Wy nT 


其 中 ，n 为 序列 长 度 ， 即 总 的 期 数 或 样本 数量 ，7(7) 是 第 i 期 的 观察 值 ， 邓 是 第 i 其 
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的 预测 值 。 

然后 进行 比较 ， 选 择 使 得 MSE 最 小 的 周期 7 为 移动 平均 法 的 周期 。 

下 面 是 一 个 对 消费 价格 指数 序列 进行 预测 的 例子 (如 表 9-1 所 示 )。 分 别 采用 移动 周 
期 为 3 年 、5 年 对 居民 消费 价格 指数 进行 了 预测 ， 通 过 计算 两 种 移动 周期 下 的 均 方 误差 ， 
可 以 发 现 ,就 本 序列 而 言 ,选择 5 年 移动 周期 进行 预测 使 得 MSE 更 小 一 些 (MSEGy=89.55， 
MSEsj=87.36)， 预 测 更 精确 。 


表 9-1 简单 移动 平均 法 预测 消费 价格 指数 
消费 价 ”3 年 移动 平均 值 预测 误差 误差 平方 5 年 移动 平均 值 预测 误差 


年 度 格 指数 。 六 (=3) ew ep Ya (Ce5) em 本 
1986 106.5 

1987 107.3 

1988 118.8 

1989 118 110.87 1713 50.88 

1990 103.1 114.70 一 11.60 134.56 

1991 103.4 113.30 -9.90 98.01 110.74 —7.34 53.88 
1992 106.4 108.17 一 1.77 3 了 110.12 一 3.72 13.84 
1993 114.7 104.30 10.40 108.16 109.94 4.76 22.66 
1994 124.1 108.17 15.93 253.87 109.12 14.98 224.40 
1995 117.1 115.07 2.03 4.13 110.34 6.76 45.70 
1996 108.3 118.63 一 10.33 106.78 113.14 一 .84 23.43 
1997 102.8 116.50 一 13.70 187.69 114.12 —11.32 128.14 
1998 99.2 109.40 一 10.20 104.04 113.40 —14.20 201.64 
1999 98.6 103.43 —4.83 23.36 110.30 —11.70 136.89 
2000 100.4 100.20 0.20 0.04 105.20 —4.80 23.04 
MSE 一 Ea 一 89.55 一 一 87.36 


(2) 加 权 移 动 平均 法 

简单 移动 平均 法 在 预测 时 ， 将 移动 周期 内 的 每 个 观察 值 都 视 为 同等 重要 。 但 实际 上 
近期 的 观察 值 和 远 期 的 观察 值 对 预测 的 重要 性 是 不 同 的 。 加 权 移动 平均 法 就 是 在 预测 时 ， 
对 近期 的 观察 值 和 远 期 的 观察 值 赋予 不 同 的 权 值 ， 再 进行 预测 。 通 常 ， 根 据 观 察 值 时 期 
的 由 近 到 远 ， 相 应 的 权 值 也 应 由 大 变 小 。 所 选择 的 各 期 的 权 值 之 和 必须 等 于 1 。 
因此 ， 第 +1 期 的 预测 值 为 

疡 ,=wFd-T+D+oFd-T+2)+…+arF(G) 

其 中 ， WW Fo t=1s 

在 实际 问题 中 ， 各 期 权 值 究竟 应 选择 多 大 ， 是 一 个 较 难 确定 的 问题 ， 一 般 也 是 采用 
均 方 误差 进行 检验 。 检 验方 法 是 选择 几 组 不 同 的 权 值 ， 比 较 其 预测 结果 ， 然 后 选择 均 方 
误差 最 小 的 一 组 权 值 。 但 在 实际 应 用 中 ， 由 于 有 更 好 的 指数 平滑 预测 法 ， 加 权 移 动 平均 
法 较 少 被 采用 。 但 加 权 移 动 平均 法 是 指数 平滑 法 的 基础 。 
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人 指数 平 漠 法 


移动 平均 法 的 预测 值 实质 上 是 以 前 观察 值 的 加 权 和 ， 且 对 不 同时 期 的 数据 给 予 相同 
的 加 权 。 指 数 平滑 法 则 对 移动 平均 法 进行 了 改进 和 发 展 。 

此 数 平滑 法 是 布衣 (Robert GBrown) 所 提出 的 ,布朗 认为 时 间 序 列 的 态势 具有 稳定 
性 或 规则 性 ， 所 以 时 间 序 列 可 被 合理 地 顺势 推 延 ， 他 认为 最 近 的 过 去 态势 ， 在 某 种 程度 
上 会 持续 到 最 近 的 未 来 ， 所 以 将 较 大 的 权 值 放 在 最 近 的 数据 样本 上 。 

指数 平滑 法 是 生产 预测 常用 的 一 种 方法 ， 也 用 于 中 短期 经 济 发 展 趋势 预测 ， 在 所 有 
预测 方法 中 ， 指 数 平滑 法 是 用 得 最 多 的 一 种 。 

指数 平滑 法 是 在 移动 平均 法 基础 上 发 展 起 来 的 一 种 时 间 序 列 分 析 预 测 法 ， 它 是 通过 
计算 指数 平滑 值 ， 配 合 一 定 的 时 间 序 列 预测 模型 对 现象 的 未 来 进行 预测 。 其 原理 是 任 一 
期 的 指数 平滑 值 都 是 本 期 实际 观察 值 与 前 一 期 指数 平滑 值 的 加 权 平 均 。 

根据 平滑 次 数 不 同 ， 指 数 平滑 法 分 为 : 一 次 指数 平滑 法 、 二 次 指数 平滑 法 和 三 次 指 
数 平滑 法 等 。 但 它们 的 基本 思想 都 是 :预测 值 是 以 前 观察 值 的 加 权 和 ， 且 对 不 同 的 数据 
给 予 不 同 的 权 值 ， 新 数据 给 较 大 的 权 值 ， 旧 数据 给 较 小 的 权 值 。 


Cp 


简单 指数 平滑 法 (Simple Exponential Smoothing) 是 简单 移动 平均 法 的 变形 ， 也 称 为 
一 次 指数 平滑 法 。 当 时 间 序 列 没有 明显 的 趋势 和 季节 性 时 (如 图 9.1 所 示 ) ， 可 以 使 用 
此 方法 。 


L 1 1 1 1 Pu 


1/03 1/04 1/05 1/06 1/07 1/08 1/09 
图 9.1 没有 明显 的 趋势 或 季节 性 的 时 间 序 列 
其 模型 可 以 用 如 下 公式 来 描述 : 
IO=arO+d-owrd-D 
其 中 , L(D 称 为 第 1 期 的 一 次 指数 平滑 值 ，L(1 一 1) 为 第 (上 D) 期 的 一 次 指数 平滑 值 ，w 
称 为 “平滑 系数 ”， 其 取 值 范围 为 [0.1]，7(D) 是 第 1 期 的 实际 观察 值 。 
当 根 据 已 有 的 t+ 期 数据 来 预测 第 1 期 之 后 的 第 期 数据 时 ， 将 预测 值 记 为 玄 (k) 。 例 


时 间 序列 分 析 与 预测 


如 当 肥 1 时 ， 即 要 预测 第 t+1 期 的 值 疡 , ， 当 及 2 时 ， 即 要 预测 第 #2 期 的 值 疡 ，。 

简单 指数 平滑 法 直接 将 1 期 的 一 次 指数 平滑 值 L(D) 作 为 第 1 期 之 后 的 预测 值 关 (kK) : 

F(F)=LD)=ar(D) +0 -a)L(t-1) 

从 式 中 可 以 看 出 ， 简 单 指数 平滑 法 对 第 Hk 期 (=1,2,… ) 的 预测 结果 ， 是 第 + 期 的 
观察 值 与 第 六 1 期 的 预测 值 的 加 权 平 均值 ， 权 值 分 别 为 a 和 1 。 

由 于 ZUt-D=wrd-D+U-oId-2)， 所 以 : 

(FP)=arY(D) +0-olar(t -D+( -oa)L(t -2) 

=QaY(f)+(1-a)aY(t-)+(-a)L(t-2) 
=a[lY(D)+0 -ot-D+( -oa Y(t -2)+( -oa Y(t -3)+..…]+(— 0)L(0) 

显然 ， 随 着 时 间 逐 渐 向 远 推移 ， 各 期 观察 值 对 预测 值 的 影响 权 值 呈 指 数 规律 递减 ， 
这 也 正 是 该 方法 被 称 为 “指数 ”平滑 法 的 原因 。 

从 简单 指数 平滑 模型 的 公式 可 以 看 出 ， 应 用 该 模型 需要 首先 确定 两 个 参数 ， 即 平滑 
系数 a 和 一 次 平滑 指数 的 初始 值 L(0)。 

当 cw 值 较 大 时 ， 对 时 间 序 列 的 修 匀 程度 较 小 ， 平 滑 后 的 序列 能 够 较 快 地 反映 出 原 序 
列 的 变化 情况 。 因 此 适用 于 变化 较 大 的 时 间 序 列 ， 反 之 ，c 值 较 小 时 ， 适 用 于 变化 较 小 
的 时 间 序 列 。 在 实际 应 用 中 ，c 值 需要 通过 试验 比较 才能 确定 ， 选 优 的 标准 是 使 预测 误 
差 最 小 。 

需要 指定 L(0)， 是 因为 在 计算 LQ)=a7Q)+(1-a)L(0) 时 , L(0) 无 法 根据 观察 值 来 确 
定 〔X(1) 已 经 是 最 远 的 观察 值 了 )。 通 常 ，L(0) 直 接 用 丈 1) 来 代替 ， 即 L(0)= (1)。 或 者 ， 
用 最 远 的 3 期 观察 值 的 平均 值 作为 初始 值 : LO=2 生 后 二 名 


2. 布朗 单一 参数 指数 平滑 模型 


布朗 单一 参数 指数 平滑 法 (Brown's Single Parameter Exponential Smoothing) 属于 二 
次 指数 平滑 法 。 

二 次 指数 平滑 法 〈 也 称 线性 指数 平滑 法 ) 是 对 一 次 指数 平滑 值 再 进行 一 次 平滑 。 一 
次 平滑 法 是 直接 利用 平滑 值 作为 预测 值 ， 而 二 次 指数 平滑 则 是 利用 平滑 值 对 时 间 序 列 的 
线性 趋势 进行 修正 ， 更 能 消除 原 序列 的 不 规则 变动 和 周期 性 变动 ， 使 序列 的 长 期 趋势 更 
加 明显 。 二 次 指数 平滑 法 包括 布朗 单一 参数 线性 指数 平滑 、 霍 特 双 参数 指数 平滑 等 。 

布朗 单一 参数 指数 平滑 模型 适合 于 其 中 有 线性 趋势 但 没有 季节 性 的 序列 (如 图 9.2 
所 示 ) 。 


1/03 104 105 1/06 107 108 1/09 
图 9.2 具有 线性 趋势 无 季节 性 的 时 间 序 列 
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其 模型 可 以 用 如 下 公式 来 描述 : 


年 份 


1983 
1984 
1985 
1986 
1987 
1988 
1989 
1990 
1991 
1992 
1993 


t 


Dowaewmwhwmnb 一 


S 


11 


财政 收入 
/ 亿 元 


29 


LD)=aY(D +0 -LD 


TO=cCO-Id-D)+G-ord-D 
FE)=LO+(E-D+oa DT7O) 

下 面 是 一 个 应 用 布朗 单一 参数 指数 平滑 法 进行 预测 的 例子 : 

某 地 1983 一 1993 年 财政 收入 的 资料 如 下 ， 试 用 布朗 单一 参数 指数 平滑 法 预测 1996 
年 的 财政 收入 。 计 算 过 程 如 表 9-2 所 示 。 
表 9-2 布朗 单一 参数 指数 平滑 计算 过 程 


LO 
ay(D+(-a)Lt-T 
c =0.9， 初 始 值 L(0) 设 为 23 
28.40 

35.24 

39.52 

47.15 

53.32 

61.13 

69.11 

75.31 

84.03 

93.00 

102.00 


TD 

QoLD-LE- D+ TED 
& =0.9， 初 始 值 T(0) 为 0 
4.86 

6.64 

4.52 

732 

6.28 

7.66 

7.95 

6.37 

8.49 

8.92 

8.99 


由 于 要 预测 1996 年 的 收入 ,也 就 是 在 =11 (1993 年 ) 处 , 向 前 预测 有 =3 期 的 预测 值 。 
_ 1 a 
所 以 ， =L0D+[G D+ jraD=102+ (2+ 0 )*899 130 。 


3， 霍 特 双 参 数 指数 平滑 模型 


此 模型 适合 于 其 中 有 线性 趋势 但 没有 季节 性 的 序列 。 它 比 布朗 更 加 常用 ， 但 在 计算 
大 型 序列 的 估计 值 时 会 花费 更 多 的 时 间 。 

霍 特 双 参数 指数 平滑 法 (Holt's Two-Paramete Exponential Smoothing) 与 布朗 单一 参 
数 线性 指数 平滑 法 在 原理 上 基本 相似 ， 但 霍 特 法 不 是 直接 用 二 次 指数 平滑 值 进行 计算 ， 
而 是 分 别 对 原 序 列 和 序列 的 趋势 进行 平滑 。 它 使 用 两 个 参数 ， 分 别 为 a 和 y ， 二 者 的 取 


值 范 围 均 在 0~1 之 间 。 


霍 特 双 参数 指数 平滑 可 用 如 下 公式 来 描述 : 
LD=aY(D+0 -aL -D+T( -1)) 
TD)=7x(LD -LO-D)D+0-7T(-D) 


这 


F(R)=LO+ETO) 


已 ，Z(O 称 为 数据 平滑 值 ，TUD 为 趋势 平滑 值 。 在 简单 指数 平滑 法 中 ， 第 +1 期 的 
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估计 值 是 第 上 期 的 观察 值 与 第 上 期 估计 值 的 加 权 平 均 。 如 果 序 列 有 趋势 ，Z(D 和 ZHI) 之 
间 就 存在 趋势 差 TD。 当 序列 呈 上 升 趋势 时 ,ZU+D) 会 低 于 实际 值 ， 当 序列 呈 下 降 趋势 时 ， 
L(+1) 会 高 于 实际 值 。 因 此 ， 霍 特 的 方法 是 一 种 改进 ， 在 估计 LW 时， 给 I 二 1) 加 上 一 个 
趋势 增 量 T(t-1)， 解 决 了 估计 值 的 时 间 涪 后 问题 。 这 里 的 这 个 趋势 增 量 也 是 一 个 指数 平 
滑 估计 值 ， 第 + 期 的 趋势 估计 值 TO 是 第 六 1 期 的 趋势 估计 值 Tc-D) 与 这 两 期 估计 值 之 差 
I(D)-L(_1) 的 加 权 平 均值 ， 也 就 是 用 第 上 期 与 第 六 1 期 趋势 平滑 值 之 差 来 修正 第 并 1 期 的 
趋势 值 。 

在 用 霍 特 法 进行 预测 时 ， 平 滑 常 数 xc 和 y 也 需要 选择 几 组 不 同 的 值 来 进行 分 析 和 比 
较 ， 以 预测 误差 最 小 的 一 组 来 作为 平滑 常数 。 

4. 阻尼 趋势 指数 平滑 


霍 特 模 型 在 考查 时 间 序列 中 可 能 存在 的 固有 趋势 (递增 或 者 递减 ) 时 ， 它 假设 这 个 
趋势 在 时 间 上 是 永久 持续 的 。 也 就 是 说 ， 无 论 时 间 发 展 多 久 ， 每 一 期 与 其 前 一 期 相 比 都 
有 一 个 相对 稳定 的 趋势 增 量 T(t-1)。 然 而 对 现实 中 的 许多 时 间 序 列 来 说 ， 这 个 假设 往往 
是 不 切实 际 的 。 时 间 序 列 随 着 时 间 的 推移 ， 趋 势 增 量 T(t-1) 往 往 是 递减 的 。 例 如 一 个 百 
米 运动 员 的 训练 成 绩 组 成 的 时 间 序列 ， 在 刚 开 始 进行 训练 时 ， 成 绩 的 增幅 往往 较 大 ， 但 
随 着 时 间 的 推移 ， 成 绩 的 提高 幅度 会 越 来 越 小 。 所 以 这 个 假设 可 能 会 导致 对 未 来 超出 实 
际 的 预测 。 

阻尼 趋势 指数 平滑 (Damped-Trend Exponential Smoothing) 是 对 霍 特 模型 的 调整 ， 
用 于 对 具有 逐渐 衰退 的 线性 趋势 但 没有 季节 性 的 序列 (如 图 9.3 所 示 ) 进行 预 测 。 它 将 
一 个 逐渐 衰退 的 趋势 考虑 进来 ， 这 个 衰退 趋势 会 影响 到 后 续 期 间 的 预测 值 。 因 此 除了 和 霍 
特 模型 中 的 两 个 参数 外 ， 它 还 包括 第 3 个 参数 办 一 个 介 于 0 一 1 之 间 的 数 ， 用 来 表示 趋 
势 中 的 衰退 比例 。 


1 1 1 1 1 


103 104 105 106 107 108 109 
图 9.3 具有 阻尼 趋势 无 季节 性 的 时 间 序 列 


阻尼 趋势 指数 平滑 可 用 如 下 公式 来 描述 : 
TOD=arOD+d-oaCd-D+ITC-ID) 
TD)=7x(LD-L0-1))+0-7GT( -DD 


fF)=LO+ YGTO 


5. 简单 季节 指数 平滑 
季节 性 变动 是 客观 事物 常见 的 一 种 变化 规则 ， 例 如 瓜 果 、 服 装 的 销量 ， 会 随 着 季节 
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的 不 同 出 现 周期 性 的 变动 ， 铁 路 、 航 空 的 客运 量 会 随 着 节假日 出 现 周期 性 变动 。 所 以 ， 
季节 性 时 间 序 列 是 一 种 非常 常见 的 时 间 序 列 。 季 节 变 动 是 有 规律 的 ， 其 表现 形式 为 以 年 
为 周期 ， 逐 年 的 同月 或 同 季 有 相同 的 变化 方向 和 大 致 相同 的 变动 幅度 。 

有 些 简单 的 季节 性 时 间 序 列 仅仅 包含 季节 效应 ， 且 每 年 的 季节 效应 比较 稳定 ， 不 随 
时 间 发 生 显著 的 变化 〈 如 图 9.4 所 示 ) 。 


1 1 1 1 1 1 ji 


1/03 1/04 105 106 1/07 108 109 


图 9.4 无 趋势 且 季节 效应 不 随时 间 变 化 的 序列 


有 些 比较 复杂 的 季节 性 时 间 序 列 除 了 稳定 的 季节 效应 之 外 ， 还 包含 逐渐 递增 或 递减 
的 趋势 特性 (如 图 9.5 所 示 ) 。 


1 1 1 1 1 i 
1/03 1/04 1/05 1/06 1/07 1/08 1/09 


图 9.5 ”线性 趋势 且 季节 效应 不 随时 间 变化 的 序列 
更 为 复杂 的 季节 性 时 间 序 列 则 包含 了 季节 性 、 趋 势 性 、 随 机 变动 等 多 种 因素 ， 如 图 


9.6 所 示 的 时 间 序 列 ， 就 包含 了 递增 的 趋势 和 季节 效应 ， 且 季节 效应 并 不 稳定 ， 随 时 间 在 
逐渐 变化 。 


1 1 1 1 1 1 Pe 


1/03 1/04 1/05 1/06 1/07 1/08 1/09 


9.6 ”线性 趋势 且 季节 效应 随时 间 变 化 的 序列 


简单 季节 指数 平滑 (Simple Seasonal Exponential Smoothing) 模型 适合 于 类 似 图 9.4 
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所 示 的 没有 趋势 且 季 节 效 应 不 随时 间 变 化 的 时 间 序 列 。 其 模型 可 用 如 下 公式 来 描述 : 
LD=a(F(D) -S(t-s) + LD) 
S(D)=6(7(0) -LD) +0 -5)S(—s) 
(KF) =L(1) + S(t+k—s) 
这 里 ，Z(O 为 数据 平滑 值 ，S(D 为 季节 平滑 值 ，s 是 周期 长 度 〈 也 就 是 一 年 当中 包含 
的 样本 数量 )， 5 为 季节 平滑 参数 ， 一 个 介 于 0 一 1 之 间 的 数 。 
6. 温 特 加 法 指数 平滑 模型 


温 特 加 法 指数 平滑 模型 (Winters” Additive Exponential Smoothing) 适合 于 类 似 图 9.5 
所 示 的 具有 线性 趋势 且 季 节 效 应 不 随时 间 变 化 的 序列 。 其 模型 可 用 如 下 公式 来 描述 : 
L(D)=a(Y(D) -S(t-s)+( -ao)(L(t -D+7T(t—1)) 
T=7(LD -TDD+Q-nT-Y) 
SD)=6(7() -LD)+ 0-6)S(—s) 
请 (D=ZLO+HEOO+SC+E-S) 
其 中 ，Z(D 为 数据 平滑 值 ，TUD 为 趋势 平滑 值 ，S(D 为 季节 平滑 值 ，w、7y 和 6 是 3 个 
平滑 参数 。 
7. 温 特 乘法 指数 平滑 模型 
温 特 乘法 指数 平滑 模型 (Winters" Multiplicative Exponential Smoothing) 适合 于 类 似 
图 9.6 所 示 的 具有 线性 趋势 且 季 节 效 应 随 序列 的 大 小 变化 的 序列 。 其 模型 可 用 如 下 公式 
来 描述 : 


oO 
S(t—s) 
TD=7x(LD -LE-D+Q-7T(-D 
_ETO SU 
SC)= ey +(1—6)S(t—s) 
F(R)=(LO+ET(O)S( + ks) 
其 中 ，Z(D 为 数据 平滑 值 ，TUD 为 趋势 平滑 值 ，S(D 为 季节 平滑 值 ，w、 y 和 5 是 3 个 
平滑 参数 。 
可 以 看 出 ， 不 同 的 模型 各 有 不 同 的 适用 场合 。 因 此 在 实际 应 用 当中 ， 首 先 要 分 析 时 
间 序 列 中 的 趋势 性 、 季 节 性 等 特点 ， 然 后 选择 合适 的 模型 。 


€3 ARIMA 模型 


ARIMA 模型 , 即 自 回归 求 和 移动 平均 模型 (Autoregressive Integrated Moving Average 
Model)， 是 由 博克 思 (Box) 和 詹金斯 (Jenkins) 于 20 世纪 70 年 代 初 提出 的 一 个 著名 
时 间 序 列 预 测 方法 ， 所 以 又 称 为 box-jenkins 模型 、 博 克 思 -詹金斯 法 。 


TD=- 一 一 +-oCt-D+TCL-D) 
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ARIMA 模型 的 基本 思想 是 : 将 预测 对 象 随时 间 推 移 而 形成 的 数据 序列 视 为 一 个 随 
机 序列 ， 用 一 定 的 数学 模型 来 近似 描述 这 个 序列 。 这 个 模型 一 旦 被 识别 后 就 可 以 从 时 间 
序列 的 过 去 值 及 现在 值 来 预测 未 来 值 。 

在 讨论 ARIMA 模型 之 前 ， 应 先 了 解 ARMA 模型 。 


ARMA 模型 ， 即 自 回归 移动 平均 模型 (Autoregressive Moving Average Model)， 是 
目前 最 常用 的 拟 合 平稳 随机 序列 的 模型 。 

所 谓 平稳 随机 序列 ， 直 观 地 说 ， 其 折线 图 没有 明显 的 上 升 或 下 降 的 趋势 ， 统 计 特性 
不 随时 间 的 推移 而 变化 。 另 外 ，ARMA 模型 预测 的 平稳 随机 序列 还 必须 是 零 均值 的 ， 即 
观察 值 的 大 小 围绕 着 0 上 下 随机 波动 。 

然而 ， 大 量 的 社会 经 济 现象 都 是 随 着 时 间 的 推移 表现 出 某 种 上 升 或 下 降 的 趋势 ， 构 
成 非 零 均值 的 非 平稳 的 时 间 序 列 。 因 此 ,在 应 用 ARMA 模型 之 前 , 往往 需要 先 对 时 间 序 
列 进行 零 均值 化 和 差分 平稳 化 处 理 。 

所 谓 零 均 值 化 处 理 ， 是 指 对 均值 不 为 零 的 时 间 序 列 中 的 每 一 个 项 数值 都 减 去 该 序列 
的 平均 数 ， 构 成 一 个 均值 为 零 的 新 的 时 间 序 列 ， 即 : 

Y=%-Y 
其 中 ， 了 -六 7， 是 时 间 序 列 的 平均 值 ，n 是 该 序列 的 数据 的 个 数 。 


t=1 
所 谓 差分 平稳 化 处 理 ， 是 指 对 均值 为 零 的 非 平 稳 的 时 间 序 列 进行 差分 处 理 ， 使 之 成 
为 平稳 时 间 序 列 ， 详 细 介绍 请 见 第 9.3.2 节 。 


1. ARMA 模型 概述 


ARMA 模型 可 细 分 为 自 回 归 模 型 (Autoregressive Model，AR 模型 )、 移 动 平 均 模 型 
(Moving Average Model，MA 模型 ) 和 自 回归 移动 平均 模型 (Autoregressive Moving 
Average Model，ARMA 模型 )。 

(1) AR 模型 

AR 模型 与 线性 回归 模型 比较 相似 。 在 线性 回归 分 析 中 ， 用 下 式 来 表示 变量 之 间 存 
在 的 某 种 线性 的 相关 关系 : 

y=Po +BatPr t+Ppxp+e 

这 里 ,xi, x2,… ,区 是 自 变量 ; y 是 因 变量 ; g 称 为 误差 项 ， 是 一 个 随机 变量 ， 反 映 了 
其 他 随机 因素 对 y 的 影响 。 

AR 模型 认为 ， 时 间 序 列 五 的 变化 受到 自身 变化 的 影响 〈( 即 受到 其 之 前 若干 期 观察 
值 的 影响 )， 因 此 同样 可 以 用 回归 模型 来 表达 时 间 序 列 的 这 种 不 同时 期 的 相关 性 : 

Y=9+9Y 1 +9 , et +e 


t 


其 中 ， 五 是 时 间 序 列 在 第 1 期 的 观察 值 ，F 是 时 间 序列 在 第 六 1 期 的 观察 值 ， 类 似 
地 ， 匹 p 是 时 间 序 列 在 第 tp 期 的 观察 值 ，p 是 AR 模型 的 阶 数 ， 表 示 五 仅 与 其 之 前 的 pp 
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期 序列 值 相关 ， 而 与 其 间隔 超过 期 的 序列 值 不 再 相关 。e 是 误差 ， 表 示 不 能 用 模型 说 
明 的 随机 因素 。 
当 w =0 时 ， 歼 是 一 个 零 均值 的 时 间 序列 ， 于 是 : 
T=@hit+ph s+ "+9 ;+ 


就 是 AR 模型 的 表达 公式 ， 记 为 AR( 了 )。 
(2) MA 模型 
MA 模型 的 基本 思想 是 ， 时 间 序 列 模型 可 以 根据 平均 前 期 预测 误差 的 原则 来 建立 ， 
在 前 期 预测 值 之 上 加 上 预测 误差 便 可 得 到 现在 的 预测 值 。 于 是 通过 递 推 ， 可 得 到 MA(9) 
模型 为 : 
L=6 0 0 


记 为 MA(q)， 其 中 ， 歼 是 时 间 序 列 在 第 上 期 的 观察 值 ，4 是 MA 模型 的 阶 数 ，e 是 时 
间 序 列 在 第 + 期 的 误差 .ei 是 时 间 序 列 在 第 六 1 期 的 误差 ， 类似 地 ，e: 是 时 间 序 列 在 第 
tq 期 的 误差 。 
(3) ARMA 模型 
ARMA 模型 是 建立 在 AR 模型 和 MA 模型 基础 之 上 的 。 将 AR 模型 和 MA 模型 有 效 
地 组 合 起 来 ， 就 构成 了 ARMA 模型 : 
YL =m tls +9 +0 =A6: -es -Oe 


pt ' gt-gq 
记 为 ARMA( p,q)。 其 中 , p 称 为 自 回归 阶 数 ， pe 9 称 为 
移动 平均 阶 数 ，{@.,6,,…,0,} 为 移动 平均 系数 。 
显然 ， 当 p=0 时 ， 模 型 就 是 移动 平均 模型 ， 记 为 ARMA(0.9); 当 9-0 时 ， 模 型 就 是 
自 回 归 模 型 ， 记 为 ARMA(P.0)。 


2. 自 相关 分 析 


在 建立 ARMA 模型 之 前 ， 必 须 首先 确定 模型 的 类 型 ( 即 选 定 AR 模型 、MA 模型 还 
是 ARMA 模型 ) 以 及 模型 的 阶 数 ( 和 gq 的 值 )。 这 些 内 容 的 确定 是 以 时 间 序 列 的 自 相 
关 分 析 为 基础 的 。 自 相关 分 析 就 是 对 时 间 序 列 求 其 本 期 与 不 同 滞后 期 的 一 系列 自 相关 系 
数 和 偏 自 相关 系数 ， 并 据 此 来 识别 时 间 序 列 的 特性 。 

(1) 自 相关 系数 

自 相关 是 时 间 序 列 了 五， 五 ，…， 五 各 项 之 间 的 简单 相关 ， 它 的 含义 与 相关 分 析 中 变 
量 之 间 的 相关 一 样 ， 只 是 因为 所 涉及 的 是 同一 序列 自身 ， 因 而 称 做 自 相 关 ， 自 相关 系数 
和 re， 即 亡 阶 自 相 关系 数 ， 表 示 序 列 中 任意 相隔 上 期 的 两 项 之 间 的 相关 程度 。 例 如 ， 

表示 每 相 邻 两 项 之 间 的 相关 程度 ， 表示 每 隔 一 项 的 两 个 观察 值 的 相关 程度 。 自 相关 
系数 的 计算 公式 为。 


-DD 
在 二 t=k+1 


pA 
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式 中 , n 是 时 间 序 列 中 观察 值 的 数量 ; Y= 是 时 间 序列 的 平均 值 。 显然， 对 于 
零 均值 的 时 间 序列 ， 其 自 相关 系数 为 : 


自 相关 系数 六 的 取 值 范围 在 -1 一 1 之 间 ，|my 与 1 越 接近 ， 说 明 时 间 序 列 的 自 相关 程 
度 越 高 。 自 相关 系数 可 以 提供 时 间 序 列 及 其 模式 构成 的 重要 信息 。 对 于 纯 随机 序列 ， 即 
一 个 由 随机 数字 构成 的 时 间 序 列 ， 其 各 阶 的 自 相关 系数 将 接近 于 零 或 等 于 零 。 而 具有 明 
显 的 上 升 或 下 降 趋势 的 时 间 序 列 或 具有 强烈 季节 变动 或 循环 变动 性 质 的 时 间 序 列 ， 将 会 
有 高 度 的 自 相关 。 

下 面 是 一 个 计算 自 相 关系 数 的 例子 。 表 9-3 是 一 个 时 间 序 列 五 的 数据 ， 试 计算 其 自 
相关 系数 ,2, 73, 74。 

表 9-3 时间 序列 Yt 的 观察 值 

t | 2 3 4 5 6 8 
了 16 13 5 7 23 27 3 5 


首先 求 出 了 =12.375， 并 将 该 时 间 序 列 零 均值 化 。 计 算 过 程 如 表 9-4 所 示 。 
表 9-4 自 相关 系数 的 计算 过 程 


| Ye Ye Yes Yrs YXYe YXxYa YXYss YXYm 
1 3.625 
小 0.625 3.625 = = < 2.266 -> -= = 
3 -7.375 0.625 3.625 < 二 一 4.609 —26.734 一 二 
4 —5.375 -7.375 0.625 3.625 Ss: 39.641 —3.359 —19.484 = 
] 10.625 -5.375 -7.375 0.625 3.625 —57.109 —78.359 6.641 38.516 
6 14.625 10.625 -5.375 -7.375 0.625 155.391 —78.609 —107.859 9.141 
—9.375 14.625 10.625 -5.375 -7.375 —137.109 -99.609 50.391 69.141 
8 —7.375 —9.375 14.625 10.625 -5.375 69.141 —107.859 ”一 78.359 39.641 
8 8 8 8 

Sy eos 2 ZY 2 Zs 
加 67.609 -394.S31 —148.672 156.438 

所 以 : 

8 8 
= 本 _ 67.609 _ 5 YY ee 
565.875 565.875 
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8 
Ts 
pe M672 36 i _156.438 


8 
yy 2 .875 
六 565.87 


(2) 偏 自 相 关系 数 
在 时 间 序 列 中 ， 偏 自 相关 是 在 给 定 了 ii， 于 2，… ， 了 Hl 的 条 件 下 ， 五 与 于: 之 间 
的 条 件 相 关 。 它 用 以 测度 当 其 他 滞后 期 1，2，-…，f1 时 间 序 列 的 作用 能 够 已 知 的 条 
件 下 ， 嘱 与 五 * 之 间 的 相关 程度 。 由 于 它 需要 考虑 排除 其 他 滞后 期 的 效应 ， 因 而 被 称 做 
偏 自 相 关 。 其 相关 程度 用 偏 自 相关 系数 6 来 度量 ， 一 ]<1，9i 的 计算 公式 为 : 
五 k=1 


kl 
be 加 3 -2 (ha x7) 
i=1 
kl 
1 一 Wa xn) 
i=1 


其 中 ， 和 i 三 1 一， i=1,2,…,k-1。 


在 前 面 的 例子 中 ， 己 经 求 出 了 i=0.119，12=0.697，x3= -0.263，r4=0.276。 据 此 可 以 
求 出 偏 自 相关 系数 ,，。， 入 ;， oa。 


fi=71=0.119 


着 二 


用 = 
1 
内; = 内 一 办 x 册 := 0.206 
a (La od) 
1— (fi xnit+ty Xn) 
人 办: 三 内 一 办 x 内 ,二 0.156 
内。 = 内: 一 办 ; Xx 办 1 二 一 0.708 
办 = 太一 (入 1 X 太 十 山 ， X 太 十 办 3 Xi) _ =_0357 
1— (fi xnit+tp, Xn + Xn) 


3. ARMA 模型 的 自 相 关 和 偏 相关 函数 


=-0.722 


=-0.07 


平稳 序列 的 自 相 关系 数 是 关于 时 滞 大 的 函数 。 因 此 ， 序 列 的 自 相关 系数 构成 自 相 关 
函数 ， 序 列 的 偏 自 相 关系 数 构 成 偏 自 相关 函数 。 
(1) AR(p) 模 型 的 自 相关 函数 和 偏 自 相 关 函 数 
AR(p) 模 型 为 =F y+] s+…+9,7_, +e， 其 偏 自 相 关系 数 满足 : 
_)% lisp 
和 p+l<i<k 
所 以 ，AR(p) 模 型 的 Bi 是 p 步 截 尾 的 ， 即 : 
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人 k<p 
|=0 k>p 


例如 ，AR(1) 模 型 和 AR(2) 模 型 的 偏 自 相关 函数 如 图 9.7 所 示 。 


4 


AR(I) AR(?2) 
图 9.7 AR( 有 p) 序 列 偏 自 相 关 函 数 的 p 步 截 尾 性 


AR(p) 模 型 偏 自 相关 函数 的 p 步 截 尾 性 对 于 识别 AR(p) 模 型 具有 十 分 重要 的 意义 。 
AR(p) 模 型 的 自 相关 函数 六 则 随时 滞 磊 的 增加 , 呈 指 数 衰减 或 正弦 波 衰减 并 趋 于 零 ， 
这 种 性 质 称 为 自 相关 函数 的 拖 尾 性 。AR( p) 模 型 的 自 相关 函数 如 图 9.8 所 示 。 


1 Se 1 
0 或 0 ; 
-1 -1 


图 9.8 AR(P) 序 列 自 相 关 函 数 的 拖 尾 性 


(2) MA(q) 模 型 的 自 相关 函数 和 偏 自 相关 函数 
MA(gq) 模 型 为 六 =e 一 Qe, -be ,一 … 一 ,es。， 其 自 相关 函数 为 : 
-0O: +O6 +*…+O, 40, 
大 三 1 下 信 二 好 十::: 主 名 
0 大 >9 
上 式 说 明 ， 对 于 MA(g) 序 列 ， 当 歼 和 页 之 间 的 间隔 居 坟 * 满足 条 件 k>q 时 ， 歼 和 责 
之 间 不 相关 ， 也 就 是 说 当 k>g 后 ，MA(9) 模 型 的 自 相 关 函 数 六 全 部 等 于 0。 但 由 于 为 不 
等 于 0， 所 以 MA(g) 模 型 的 自 相 关 函 数 具有 4 步 截 尾 性 。 这 一 性 质 被 用 来 识别 MA 模型 
及 确定 模型 的 阶 数 q。 
MA(1) 模 型 和 MA(2) 模 型 的 自 相 关 函 数 如 图 9.9 所 示 。 
MA(9) 模 型 的 偏 自 相 关 函 数 与 自 相关 函数 不 同 , 不 能 在 某 步 之 后 截 尾 ,而 是 随时 滞 大 
的 增加 ， 呈 指数 衰减 或 衰减 的 正弦 波 ， 趋 向 于 0， 即 表现 出 拖 尾 性 。 图 9.10 是 MA(g) 模 
型 的 偏 自 相关 函数 。 
(3) ARMA(P.9) 模 型 的 自 相 关 函 数 和 偏 自 相 关 函 数 
ARMA(P.9) 模 型 包含 了 两 个 过 程 ， 即 自 回归 过 程 和 移动 平均 过 程 ， 因 而 其 自 相关 与 


l<k<gq 
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偏 自 相关 函数 都 较 单纯 的 AR(p) 和 MA(g) 模 型 更 复杂 ， 均 表现 出 拖 尾 性 。 
re re 
1 上 1 
> 
到 10 大 1 |2 10 大 
st -1 
MA(D MACO) 


图 9.9 MA(g) 序 列 自 相关 函数 的 4 步 截 尾 性 


办 由 


9.10 MA(9g) 序 列 偏 自 相 关 函 数 的 拖 尾 性 


综合 考察 AR(p) 模 型 MA(g) 模 型 和 ARMA( p.q) 模 型 自 相 关系 数 和 偏 自 相关 系数 的 
性 质 ， 可 以 总 结 出 如 下 规律 ， 如 表 9-5 所 示 。 


表 9-5 自 相关 系数 和 偏 自 相关 系数 的 性 质 
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模型 自 相关 函数 偏 自 相 关 函 数 
AR(p) 拖 尾 Pp 步 截 尾 
MA(g) gq 步 截 尾 拖 尾 
ARMA(p.g) 拖 尾 拖 尾 


ARMA 模型 用 于 对 平稳 序列 的 拟 合 ， 但 在 实际 问题 中 ， 许 多 序列 并 不 是 平稳 序列 ， 
不 能 直接 用 ARMA 模型 去 描述 。 因 此 在 应 用 ARMA 模型 之 前 ， 必 须 先 对 非 平 稳 的 序列 
进行 处 理 ， 得 到 平稳 序列 。 非 平稳 序列 可 以 通过 差分 运算 成 为 平稳 序列 。 

1. 差分 运算 

(1) qd 阶 差 分 

相隔 1 期 的 两 个 序列 值 之 间 的 减法 运算 称 为 1 阶 差分 运算 , 记 VY 为 歼 的 1 阶 差 分 : 

VE=Y Ys 
对 1 阶 差分 后 的 序列 再 进行 一 次 差分 运算 称 为 2 阶 差 分 ， 记 为 VY : 
VIE = VE VD 
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以 此 类 推 ,对 忆 1 阶 差分 后 的 序列 再 进行 一 次 1 阶 差分 运算 称 为 4d 阶 差分 , 记 为 V4Z ， 
元 的 4 阶 差 分 为 : 
VE=V = Es 
(2) 上 步 差分 
相隔 大 期 的 两 个 序列 值 之 间 的 减法 运算 称 为 上 步 差分 运算 。 记 Vi 了 为 五 的 大 步 差分 : 
BAA 和 及 = 
万 步 差分 可 用 于 处 理 序列 的 季节 性 。 例 如 ， 如 果 序 列 的 时 间 间 隔 为 1 个 月 ， 季 节 周 
期 为 12 个 月 ， 那 么 可 以 对 序列 进行 12 步 差分 运算 : 
MD 
(3) 延迟 算 子 
延迟 算 子 用 来 表示 相隔 1 期 的 序列 值 之 间 的 关系 。 记 B 为 延迟 算 子 ， 那 么 : 
Y=BY, YoBY, -…, YaB'Y, 
因此 ， 用 延迟 算 子 来 表示 4 阶 差分 为 : 
VY = -BY 


用 延迟 算 子 来 表示 大 步 差 分 为 : 
Vi = Y=- By 
通常 ， 一 个 具有 线性 趋势 的 序列 ， 可 以 通过 1 阶 差分 处 理 实现 趋势 平稳 ， 如 果 序 列 
具有 曲线 趋势 ， 通 过 2 阶 或 3 阶 差 分 后 可 以 实现 平稳 化 ， 如 果 序列 强 涵 着 固定 周期 ， 可 
以 进行 步 长 为 周期 长 度 的 差分 运算 ， 消 除 周 期 信息 的 影响 后 得 到 平稳 序列 。 
2. ARIMA 模型 


(1) ARIMA(p,4.9) 模 型 
设 五 为 一 含有 趋势 性 的 非 平稳 序列 ， 在 经 过 q 阶 差分 后 得 到 平稳 序列 ， 记 为 ZD， 
ZZ=V ==BY tzd 

且 Zi 可 用 ARMA(p,q) 模 型 来 表示 ， 那 么 于 称 为 ARMA 的 qd 阶 求 和 序列 ， 并 用 
ARIMA(p,q.q) 表 示 。 其 中 ，q 为 求 和 阶 数 ，p 和 9 分 别 为 乙 的 自 回 归 阶 数 和 移动 平均 
阶 数 。 

设 天 经 过 1 阶 差分 ( 即 4=1) 后 得 到 平稳 序列 Z.， 所 以 ZF(1-B)Yi。 那 么 序列 的 
ARMA(1.1) 模 型 可 表示 为 

Z -P21=0 Qe, WU-B)Y -p01-BY,=e-0Be, 
因此 ， 序 列 鳌 的 ARIMA(1,1,1) 模 型 可 表示 为 : 
(1-BY -9(-BBY=e-0Be,, BU-B)(I-9B)Y=(-0B)e, 
一 般 地 ，ARIMA(p,d,q) 模 型 可 表示 为 
9(B)(1—B)’"Y =0(B)e, 

(2) ARIMA( p,q,9)(P,D.O)" 模型 
当 序 列 中 同时 存在 趋势 性 和 季节 性 时 ， 可 以 对 序列 进行 4 阶 差分 ， 消 除 趋势 性 ， 并 
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进行 D 阶 s 步 差 分 (s 为 周期 )， 消 除 季 节 性 。 所 以 ， 此 类 含有 趋势 性 和 季节 性 的 非 平 
稳 时 间 序 列 需 要 用 更 复杂 的 模型 来 描述 : ARIMA(P.44)(P.D.O)。 

一 般 地 ，ARIMA(P.d9)(P.D.O7 可 表示 为 

Vp(B)Ge(B)Q-B) (BY Y=0,(B)O,(B’)e, 

其 中 , p 是 非 季 节 性 自 回 归 阶 数 ,， P 是 季节 性 自 回归 阶 数 ，g 是 非 季 节 性 移动 平均 阶 
数 ，Q 是 季节 性 移动 平均 阶 数 ， 且 

9p(B)=1-9.B 一 9,B* 一 … 一 7pB2 是 模型 非 季节 的 AR(p) 部 分 

8,(B')=1- BB' -8B,B*-…-@D,B™ 是 模型 季节 的 AR(P) 部 分 

(1 一 B)? 表示 4 阶 逐 期 差分 

(1-B')? 表 示 DD 阶 s 步 季节 差分 

6(B)=1-6B-2B2-… 一 多 8 是 模型 非 季 节 的 MA(g) 部 分 

Go(B)=1-Q@ 访 -@B2 -… 一 瑟 82 是 模型 季节 的 MA(O) 部 分 

所 以 ， 时 间 序 列 模 型 ARIMA( p.4.9)(P,D.O) 可 以 描述 各 种 非 平 稳 的 时 间 序 列 ， 是 时 
间 序 列 最 一 般 的 表示 形式 ， 它 包括 了 AR(p)、MA(g)、ARMA( p.g)、ARIMA( p,q,q)、 
ARIMA(P,D,O) 以 及 各 种 组 合 模型 。 


和 


使 用 ARIMA 模型 对 观测 序列 建 模 ， 主 要 包括 平稳 性 检验 、 确 定 模型 、 参 数 估计 、 
模型 检验 等 过 程 。ARIMA 建 模 的 基本 流程 如 图 9.11 所 示 。 


图 9.11 ARIMA 建 模 的 基本 流程 


1. 平稳 性 检验 
现实 中 的 时 间 序 列 大 多 都 不 是 平稳 序列 ， 只 有 将 非 平稳 序列 进行 差分 运算 并 通过 平 
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稳 性 检验 后 , 才 可 以 使 用 ARMA 模型 来 描述 。 也 就 是 说 ,在 确定 ARIMA( p,q,q)(P.D,O) 
中 的 p、g、P、0Q 之 前 ， 必 须 先 在 差分 运算 过 程 中 确定 4、D、s 的 值 。 

最 直观 的 方法 是 利用 序列 的 散 点 图 来 了 解 时 间 序 列 的 趋势 性 和 季节 性 。 更 准确 的 方 
法 是 利用 自 相关 函数 来 分 析 。 

如 果 时 间 序 列 的 自 相关 函数 产 在 时 滞 上 增 大 时 ， 迅 速 趋 于 0， 可 认为 该 序列 是 平 
稳 的 ;如果 随 磊 的 增 大 ， 六 不 趋 于 0， 则 序列 是 非 平 稳 的 ; 如 果 在 厂 12 (或 4)，24 (或 
8)，…， 时 ， 自 相关 函数 显著 不 为 0， 意味 着 时 序 具 有 季节 性 。 

具有 趋势 性 和 (或 ) 季节 性 的 时 间 序 列 ， 可 以 经 过 差分 运算 处 理 转化 为 平稳 序列 ， 
使 其 能 使 用 ARMA 模型 来 描述 。 经 过 4 阶 和 (或 ) D 阶 s 步 差分 运算 后 ， 时 间 序 列 的 自 
相关 函数 六 在 大 增 大 时 ， 迅 速 衰减 并 趋 于 0， 那么 这 里 的 g 和 (或 ) D、s 就 是 要 识别 的 
差分 阶 数 和 步 数 。 

在 实际 应 用 中 ，q 和 DD 的 数值 通常 为 0、1 或 2，s 的 数值 通常 为 4 或 12。 


2. 确定 模型 


确定 模型 的 过 程 ， 也 就 是 确定 ARIMA(p,q,9)(P,D,O) 中 的 p、q、P、Q。 这 是 通过 
对 时 间 序 列 的 自 相关 函数 及 偏 自 相关 函数 的 分 析 来 实现 的 。 

(1) 确定 PP 和 94 

如 果 时 间 序 列 的 自 相 关 函 数 拖 尾 ， 而 偏 自 相关 函数 在 p 步 截 尾 ， 则 序列 可 建立 AR 
模型 ， 其 自 回归 阶 数 为 p。 

如 果 序 列 的 偏 自 相 关 函 数 拖 尾 ， 自 相关 函数 在 4 步 截 尾 ， 则 序列 可 建立 MA 模型 ， 
其 移动 平均 阶 数 为 q。 

如 果 序 列 的 自 相关 和 偏 自 相关 函数 都 拖 尾 ， 则 要 建立 ARMA 模型 。 这 时 ， 模 型 的 阶 
数 的 识别 比较 复杂 ， 通 常 要 采用 由 低 阶 向 高 阶 和 逐步 试探 的 方法 。 几 个 可 供 参 考 的 经 验 
如 下 。 

自 回归 阶 数 p 的 选择 具有 统计 有 效 性 的 偏 自 相关 数目 ， 或 者 有 效 偏 自 相关 的 时 
清 数 。 

移动 平均 阶 数 4 的 选择 : 显著 不 为 0 的 自 相 关 数 目 ， 或 者 自 相关 函数 从 二 如 开始 迅 
速 衰减 ， 则 g=ko。 

(2) 确定 P、 QO、s 

在 分 析 序 列 的 季节 性 时 ， 首先 分 析 其 季节 周期 s， 可 以 通过 分 析 序 列 散 点 图 来 确定 s 
的 值 。 确定 了 和 0 的 方法 与 确定 p 和 9g 的 方法 相同 ， 只 是 在 观察 自 相 关 函 数 和 偏 自 相关 
函数 时 ， 只 分 析 三 s，2s，… 时 的 情形 。 

如 果 序 列 的 自 相 关 函 数 随时 滞 的 增 大 按照 季节 周期 的 增加 而 衰减 ， 序 列 可 以 用 季 
节 自 回归 模型 来 描述 ， 其 阶 数 己 决定 于 有 效 的 季节 偏 自 相关 系数 的 数量 。 

如 果 序列 的 偏 自 相关 函数 随时 滞 磊 的 增 大 按照 季节 周期 的 增加 而 衰减 ， 序 列 可 以 用 
季节 移动 平均 模型 来 描述 ， 其 阶 数 O 决定 于 显著 不 为 0 的 季节 自 相关 系数 的 数量 。 

如 果 序 列 的 季节 自 相关 函数 和 偏 自 相关 函数 都 呈 指 数 衰减 , 可 以 用 季节 的 ARMA 模 
型 来 描述 。P 和 2 的 确定 方法 同上 ， 但 通常 需要 进行 大 量 的 测试 ， 一 般 情 况 下 ,已 和 2 
的 值 为 0、1 或 2。 
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3. 参数 估计 


确定 模型 之 后 ， 可 以 对 选 定 的 某 一 组 阶 数 进行 模型 的 参数 估计 。 参 数 估计 一 般 分 两 
个 步骤 。 第 一 步 设法 找 出 参数 的 初步 估计 ; 第 二 步 在 初步 估计 的 基础 上 ， 根 据 一 定 的 估 
计 准 则 ， 例 如 最 小 二 乘 或 者 极 大 似 然 准则 ， 求 得 模型 参数 在 某 种 意义 下 的 精确 估计 。 这 
里 仅 介 绍 参数 的 初步 估计 。 

(1) AR(p) 模 型 参数 的 初步 估计 

AR(p) 模 型 的 公式 为 : 


Y=9h 1 +9 ++9ph p+e 


对 于 有 1，2 ，D， 上 式 两 边 同 乘 已 be， 可 得 : 
yy x =P to ot to ph rt ter 
所 以 ， 


ECQY i) = BEC YR) +t PE ob) + +9 EY ph) 
即 
PtP t+ Ol p 
因为 有 1，2，… ，PD， 所 以 上 式 展开 得 到 方程 组 : 
n= + t+ pry 
n=91+9, +…+9pr, 


m= ti 
上 式 也 称 为 Yule-Walker 方程 ， 根 据 此 方程 组 即 可 求 出 参数 gp，9g,，…，9,。 
可 以 推出 ， 对 于 1 阶 自 回归 模型 AR(1)，9g, = 。 
对 于 2 阶 自 回 归 模 型 AR(2)， 有 
i=9 +9n 
E = +9, 
可 解 得 : 
7n) -五 - 开 
“= 让 l=# 
(2) MA(g) 模型 参数 的 初步 估计 
MA(gq) 模型 的 公式 为 


Y=@-0e,—0e “i 


1°t-1 2%-2 gt-g 
对 于 时 滞 上 kr， 有 了 =@ i Eos Oy 0 
YY =(e 一 Qe 一 0e —…— 0 e_y)(e 一 0e_b -Oe 一 … 台 esq) 与 AR(p) 


模型 的 初步 估计 的 推导 类 似 ， 上 式 两 边 同 时 取 期 望 值 ， 最 终 可 得 到 
-和 +O6 TO +--*+O, 10 
1+@ + +- 六 


= 
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特别 地 , 对 于 MA(1) 模 型 , 有 = 即 iG@2 +Q + =0, 解 方程 即 可 得 到 MA(1) 


模型 的 估计 参数 ， 8 = 一 -所 和 。 


对 于 ARMA(p,q) 模 型 参数 的 估计 计算 比较 复杂 ， 通 常 只 能 通过 计算 机 软件 来 实现 。 
4. 模型 检验 


模型 的 检验 就 是 要 考察 所 建立 的 模型 是 否 合理 。 这 个 过 程 是 通过 对 模型 残 差 序列 @, 
检验 是 否 白 噪声 ， 考 核 所 建 模 型 的 优 劳 。 残 差 序列 就 是 观测 时 间 序 列 与 预测 模型 之 间 的 
误差 序列 。 所 谓 白 噪声 序列 ， 就 是 序列 的 各 项 之 间 互 不 相关 的 纯 随 机 序列 。 如 果 残 差 序 
列 e% 是 白 噪声 序列 ， 可 认为 模型 合理 ， 适 用 于 预测 ;和 否则 应 进一步 改进 模型 。 模 型 的 检 
验 有 自 相关 函数 检验 和 x? 检验 两 种 方法 。 

(1) 自 相关 函数 检验 法 

一 个 纯 随 机 序列 的 自 相 关系 数 在 理论 上 应 该 是 0。 但 事实 上 ， 这 只 是 在 样本 容量 无 
限 大 时 才 成 立 。 从 总 体 中 随机 抽取 一 定数 目的 样本 构成 的 序列 ， 其 自 相关 系数 随 样本 的 
不 同 会 有 所 差异 ， 围 绕 着 总 体 自 相 关系 数 构成 一 种 分 布 。 数 理 统计 的 理论 证 明 ， 随 机 序 
列 自 相关 系数 的 抽样 分 布 ， 近 似 于 以 0 为 均值 ，1/Vn 为 标准 差 的 正 态 分 布 〈m 为 样本 数 
量 )。 给 定 概率 FD， 可 以 构成 一 个 置信 区 间 (-to,+to) 。 例 如 n=60， 标 准 差 
a=1/V60 =0.129 ， 那 么 给 定 置信 度 95%， 可 以 构造 出 置信 区 间 为 -1.96x0.129， 
+1.96x0.129)。 如 果 残 差 序列 的 自 相关 系数 基本 都 落 入 置信 区 间 内 ， 即 可 判定 其 为 随机 
序列 。 

(2) 入 检验 法 

利用 序列 的 自 相关 函数 来 分 析 序列 的 随机 性 ， 这 种 方法 虽然 简便 直观 ， 但 检验 精度 
有 时 并 不 理想 。 博 克 斯 和 皮尔 斯 提出 了 一 种 简单 且 精 确 度 较 高 的 模型 检验 法 。 

首先 构造 9 统计 量 ， 


Q=nDn 
k= 

其 中 ，m 为 模型 的 最 大 时 滞 ，n 为 时 间 序 列 的 观察 值 数 量 。 

对 于 给 定 的 置信 概率 1- w (通常 取 a=0.05)， 查 x? 分布 表 中 的 自由 度 为 m 的 zx? 值 
X(m)， 将 0 与 Xe(m) 进 行 比较 ， 

如 果 Q< 嫉 (m)， 则 通过 检验 ， 残 差 序 列 为 白 噪声 序列 。 

如 果 Q>Zx2(m)， 则 未 通过 检验 。 

5. 预测 

在 预测 时 人 们 总 是 追求 预测 的 结果 达到 最 优 。 所 谓 最 优 ， 就 是 预测 值 与 实际 值 之 间 
的 误差 尽 可 能 小 。 

设立 () 表 示 在 已 知 互 ， 五 ;，…: 的 条 件 下 ， 对 五; 做 出 的 预测 ， 称 为 1 步 预 测 ， 其 预 
测 误差 为 ，e(D) = 马 ，- 王 0) 。 
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如 果 预 测 结果 使 得 预测 误差 的 方差 达到 最 小 , 即 Efe, (DP =E[Y,, -六 DP =min ， 且 
预测 值 是 过 去 时 间 序列 值 的 函数 ， 且 是 线性 的 ， 则 称 预测 值 功 (1) 是 7 步 线性 最 小 方差 预 

， 或 者 1 步 最 优 预 测 。 

最 优 预 测 值 可 以 用 条 件数 学 期 望 来 表示 ， 即 : 立 (D) = E(Y,, | 了 ,7 ,,…,Y)， 它 具有 以 
下 3 个 性 质 : 


CD i A ‘ns ba A A A 


¥() 1>0 
A A si eg 
t+l 和 


_|0 1>0 

(3) E(@le,e ,2)= ea 

性 质 (1) 说 明 条 件 期 望 是 一 种 线性 运算 ; 性质 (2) 说 明 现 在 或 者 过 去 的 观察 值 的 
条 件 期 望 就 是 它 本 身 ， 未 来 观察 值 的 条 件 期 望 就 是 它 的 预测 值 ; 性 质 (3) 说 明 现 在 或 过 
去 的 “误差 ”其 条 件 期 望 就 是 它 本 身 ， 未 来 误差 的 条 件 期 望 为 0。 

根据 上 述 性 质 ， 可 以 导出 ARMA( p.q) 模 型 的 预测 公式 。 

- 步 预测 公式 为 
区 四 = En Yk) 


g 
ES pr + en -20ejn IY,¥ ,8) 
有 | 


= + t+- a —A@ —tes —…— 0 eg 
其 中 ，e:，er1，… 是 可 以 计算 的 观测 残 差 。 
二 步 预 测 公 起 为 


=|) 
aco 1j+2 + @42 -Foely, Ly 


Ee 
类 似 地 ， 可 以 求 出 7 步 预测 公式 
DOD=BE0 -D+ D+ + 
特别 地 ， 当 1>p，1>d 时 ， 
FD)=OF -D+h 2D)+-+p, (1 p) 


-be 三 的 5 一 可 


本 小 节 描述 一 个 根据 数据 样本 集 来 建立 时 间 序 列 模 型 并 对 序列 的 未 来 值 进行 预测 的 
案例 。 在 本 例 中 , 样本 数据 是 我 国 1999 年 12 月 至 2009 年 9 月 共 118 个 月 度 的 国家 外 汇 
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储备 量 的 观察 值 ( 表 9-6)， 存 放 在 “国家 外 汇 储备 规模 .xls” 文 件 中 。 我 们 要 根据 这 批 数 
据 建立 时 间 序 列 模型 ， 并 预测 2009 年 10 月 至 2010 年 1 月 共 4 个 月 的 预测 值 。 


表 9-6 ”国家 外 汇 储备 规模 〈 亿 美元 ) 
月 度 金额 月 度 金额 月 度 金额 月 度 金额 
99 年 12 月 1546.75 | 02 年 6 月 2427.63 | 04 年 12 月 6099.32 107 年 6 月 13326.25 
00 年 1 月 1561.00 | 02 年 7 月 2465.34 | 05 年 1 月 6236.46 107 年 7 月 13 852.00 
00 年 2 月 1565.59 | 02 年 8 月 2530.90 05 年 2 月 6426.10 |」07 年 8 月 14086.41 
00 年 3 月 1568.20 | 02 年 9 月 2586.30 | 05 年 3 月 6591.44 107 年 9 月 14336.11 
00 年 4 月 1 568.46 | 02 年 10 月 2655.39 | 05 年 4 月 6707.74 |」o07 年 10 月 14 548.98 
00 年 5 月 1580.19 |02 年 11 月 2746.25 05 年 5 月 6910.12 |」o07 年 11 月 14969.06 
00 年 6 月 1585.68 | 02 年 12 月 2864.07 | 05 年 6 月 7109.73 107 年 12 月 15282.49 
00 年 7 月 1585.96 | 03 年 1 月 3044.60 |05 年 7 月 7327.33 |08 年 1 月 15898.10 
00 年 8 月 1592.17 |o3 年 2 月 3082.50 | 05 年 8 月 7532.09 | 08 年 2 月 16471.34 
00 年 9 月 1600.92 | 03 年 3 月 3160.10 | os 年 9 月 7690.04 |o8g 年 3 月 16821.77 
00 年 10 月 1613.44 |03 年 4 月 3262.91 | 05 年 10 月 7849.02 |o08 年 4 月 17566.55 
00 年 11 月 1639.11 | 03 年 5 月 3400.61 | os 年 11 月 7942.23 |o08 年 5 月 17969.61 
00 年 12 月 1655.74 | 03 年 6 月 3464.76 | 05 年 12 月 8188.72 |o08 年 6 月 18088.28 
226 01 年 1 月 1686.23 | 03 年 7 月 3564.86 | 06 年 1 月 8451.80 |o08 年 7 月 18451.64 
1 年 2 月 1747.73 | 03 年 8 月 3647.34 | 06 年 2 月 8536.72 |o08 年 8 月 18841.53 
1 年 3 月 1758.47 | 03 年 9 月 3838.63 | 06 年 3 月 8750.70 108 年 9 月 19055.85 
1 年 4 月 1771.78 | 03 年 10 月 4009.92 | 06 年 4 月 8950.40 |o8g 年 10 月 18796.88 
01 年 5 月 1790.00 | 03 年 11 月 4203.61 | 06 年 5 月 9250.20 上 108 年 11 月 18847.17 
1 
1 
| 
i 


6 月 1808.38 | 03 年 12 月 4032.51 | 06 年 6 月 9411.15 上 08 年 12 月 19 460.30 
FE 7 月。 1844.92 104 年 1 月 4157.20 | 06 年 7 月 9545.50 09 年 1 月 ” 19134.56 
年 8 月 1900.53 104 年 2 月 4266.39 06 年 8 月 9720.39 |09 年 2 月 ”19 120.66 
年 9 月 1957.64 | 04 年 3 月 4398.22 | 06 年 9 月 9879.28 上 09 年 3 月 19 537.41 
01 年 0 月 2030.29 | 04 年 4 月 4490.17 | 06 年 0 月 10096.26 上 | 09 年 4 月 ”20 088.80 
01 年 11 月 2083.15 | 04 年 5 月 4585.60 | 06 年 11 月 10387.51 | 09 年 5 月 ”20 894.91 
01 年 12 月 2121.65 | 04 年 6 月 4706.39 | 06 年 12 月 10663.44 | 09 年 6 月 21316.06 
02 年 1 月 2174.00 104 年 7 月 4829.82 | 07 年 1 月 11046.92 上 09 年 7 月 21746.18 
02 年 2 月 2235.31 | 04 年 8 月 4961.69 | 07 年 2 月 ”11573.72 | 09 年 8 月 22 108.27 
02 年 3 月 2276.05 | 04 年 9 月 5145.38 | 07 年 3 月 12020.31 109 年 9 月 22725.95 
02 年 4 月 2338.24 | 04 年 0 月 5424.43 | 07 年 4 月 12465.66 

02 年 5 月 2384.73 | 04 年 11 月 5738.82 | 07 年 5 月 12926.71 


完整 的 数据 流 如 图 9.12 所 示 。 

首先 , 将 “数据 源 ” 中 的 Excel 节点 添加 到 数据 流 区 域 , 并 将 “国家 外 汇 储备 规模 .xls” 
文件 加 载 到 该 节点 ， 在 该 节点 编辑 窗口 的 “类 型 ”标签 下， 将 字段 “月 度 ” 的 方向 设置 
为 “无 ”“ 金 额 ” 的 方向 设置 为 “输出 ”如 图 9.13 所 示 。 然 后 单 击 “ 读 取 值 ”按钮 ， 
最 后 单 击 “确定 ”按钮 。 

向 数据 流 中 添加 “时 间 区 间 ” 节 点 ， 并 建立 从 “国家 外 汇 储备 规模 xls” 节 点 到 “时 
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间 区 间 ” 节 点 的 连接 。 在 应 用 “时 间 序 列 ” 节 点 时 ， 不 能 简单 地 将 “时 间 序 列 ” 节 点 插 
入 数据 流 并 执行 流 。 通 常 在 “时 间 序 列 ” 节 点 之 前 ， 必 须 先 插 入 “时 间 区 间 ” 节 点 ， 该 
月 等 ) 、 
只 有 在 数据 经 过 了 “时 间 


节点 可 指定 如 下 信息 ， 例 如 所 使 用 的 时 间 区 间 〈 年 、 季 度 、 


及 预测 所 延伸 到 的 未 来 时 间 的 范围 《如 果 已 使 用 ) 。 或 者 说 ， 
区 间 ” 节 点 的 设置 处 理 之 后 ，Clementine 才 将 其 视 为 时 间 序 列 数据 来 处 理 。 


三 


[金额 


图- 时 间 区 间 


El 
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图 9.12 时间 序列 建 模 数据 流 
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[金额 STS- 金 额 ] 


一 全 $TS- 金 额 ] 


用 于 估计 的 数据 以 


昌明 
表 


© 


Ditclementine\ 书 二 子 时 间 序列 分 析 ' 实 验 \ 国 家 外 汇 储备 规模 xls 


IN] 国 o [| > 该 了 a 筷 | 清除 值 | 洁 除 所 有 入 


字段 一 类 型 什 | ”缺失 “| ”检查 方向 
A| 月 度 而 集 “1999 年 12 月 "20 无 无 
人 金额 少 范 围 [1546.75,22725.9... 无 固 输出 


@ 查看 当前 字段 〇 查看 未 使 用 的 字段 设置 


1 


9.13 ”数据 类 型 的 设置 


Da 


在 “时 间 区 间 ” 节 节点 的 编辑 窗口 中 , 在 “间隔 ”标签 下 , 将 “时 间 区 间 ” 设 置 为 “月 ”， 
起 始 数据 设置 为 “年 : 1999 月 : 十 二 月 ”， 如 图 9.14 所 示 。 


一 一 一 一 一 一 一 一 数据 挖掘 算法 与 Clementine 实践 


周期 : 12 


回 从 第 一 个 记录 开始 附加 标签 〇 从 数据 构建 


年 | 1999 上 习 月 | 十 = 月 = 
新 的 字段 名 称 扩展 :|3Tl_ | 添加 为: 加 前 如 CD) 后 如 
间隔 注解 | 


图 9.14 设置 时 间 区 间 参 数 


然后 切换 到 “预报 ”标签 下 ， 勾 选 “ 将 记录 扩展 至 未 来 ” 复 选 框 ， 并 设置 预测 期 数 
为 “4”， 即 要 预测 未 来 4 期 的 目标 值 ， 如 图 9.15 所 示 。 


售 时 间 区 间 


全 


办 将 记录 扩展 至 未 来 4 
未 来 指示 器 字段 : $TL 未 来 


预报 中 使 用 的 未 来 值 


选择 要 添加 到 数据 的 字段 值 
字段 


图 9.15 设置 预报 参数 


在 开始 建 模 之 前 ， 先 通过 散 点 图 来 对 这 个 时 间 序 列 特性 进行 初步 的 了 解 。 将 “时 间 
散 点 图 ”节点 添加 到 数据 流 中 ， 并 建立 从 “时 间 区 间 ” 到 该 “时 间 散 点 图 ”节点 的 连接 。 
打开 “时 间 散 点 图 节点 的 编辑 窗口 (如 图 9.16 所 示 )， 将 “序列 ” 选 定 为 “金额 ” 
他 参数 保持 默认 设置 ， 然 后 单 击 “ 执 行 ”按钮 ， 即 可 得 到 如 图 9.17 所 示 的 时 间 散 点 图 。 


册 中 
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XX 轴 标 签 : 全 默认 值 〇 ) 自 定义 


区 在 单独 面板 中 显示 序列 [v] 标准 化 
显示 :四 行 


、 3 加 
要 限制 记录 要 给 制 的 最 大 记录 数 :| 。 2000| 引 
图 | 外 观 | 输 


注解 


图 9.16 设置 时 间 散 点 图 


加 [金额 ] 的 时 间 获 点 图 #4 回回 加 
国文 件 口 编 各 要 生成 cy 视 图 国 色 


ee i Et , 


a 1 t t 
00-1-1 02-1-1 04-1-1 06-1-1 08-1-1 
$II_ TimeLabel 


图 9.17 时 间 序 列 的 散 点 图 
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从 散 点 图 可 以 看 出 ， 该 时 间 序 列 具有 明显 的 指数 增长 上 升 趋势 ， 但 不 包含 季节 性 。 
将 “时 间 序 列 ” 节 点 添加 到 数据 流 中 ， 并 建立 从 “时 间 区 间 ” 节 点 到 该 “时 间 序列 
节点 的 连接 。 打 开 该 “时 间 序 列 ” 节 点 的 编辑 窗口 ， 做 如 图 9.18 所 示 的 设置 。 


念 遇 


模型 名 称 : 〇 自动 @ 自 定义 | 专家 建 模 
使 用 现 有 模型 记录 评估 


方法 : 专家 建 模 器 ~ 标准 … 


使 用 所 有 记录 估计 模型 
预测 4 个 记录 超出 估计 时 限 


置信 度 限制 宽度 (96): 


ACF 和 PACF 输出 中 的 最 大 延展 数 | 。 ”24 全 


字段 | 模型 | 注解 


图 9.18 设置 “专家 建 模 ” 节 点 


将 模型 名 称 自 定义 为 “专家 建 模 ”, 把 建 模 的 “方法 ”设置 为 “专家 建 模 器 ”。Clementine 
为 我 们 提供 了 3 种 建 模 的 方式 。 

专家 建 模 器 (Expert Modeler) : 选择 此 选项 将 自动 为 时 间 序 列 查 找 拟 合 得 最 好 的 
模型 。 

指数 平滑 (Exponential Smoothing) : 使 用 此 选项 以 指定 自 定义 的 指数 平滑 模型 。 

ARIMA: 使 用 此 选项 以 指定 自 定义 的 ARIMA 模型 。 

单 击 “ 标 准 …” 按 钮 ， 设 置 模型 的 类 型 ， 如 图 9.19 所 示 。 

所 有 模型 (All Models) : 如 果 选 择 该 选项 ， 专 家 建 模 器 将 同时 考虑 ARIMA 模型 和 
指数 平滑 模型 。 

仅 限 于 指数 平滑 的 模型 (Exponential Smoothing Models Only) : 如 果 选 择 该 选项 ， 
专家 建 模 器 仅 考 虑 指数 平滑 模型 。 

仅 限 于 ARIMA 模型 (ARIMA Models Only) : 如 果 选 择 该 选项 ， 专 家 建 模 器 仅 考 
虑 ARIMA 模型 。 

专家 建 模 器 考虑 季节 模型 (Expert Modeler Considers Seasonal Models) : 仅 在 已 
为 活动 数据 集 定义 了 周期 性 时 才 启 用 此 选项 。 选 中 此 选项 时 ， 专 家 建 模 器 将 同时 考虑 季 
节 模 型 和 非 季节 模型 。 如 果 未 选中 此 选项 ， 则 仅 考虑 非 季 节 模 型 。 


时 间 序列 分 析 与 预测 


售 时 间 序列 建 模 器 :专家 建 模 喜 标 稚 区 ] 
[模型 类 型 

加 所 有 模型 

O 〇 芭 限 于 指数 平滑 的 模型 
OO 如 限于 ARIMA 醒 型 

专家 建 模 器 考虑 季节 模型 


[事件 和 干涉 


了 
事件 和 干涉 字段 是 特殊 的 独立 字段 ， 

使 用 它 对 外 部 效应 进行 建 模 ， 如 洪水 、 罢 工 、 
或 者 新 产品 线 的 推出 。 检 查 要 用 作 

事件 和 交互 字段 的 所 有 字段 。 


模型 | 离 群 值 


图 9.19 设置 时 间 序 列 模型 类 型 


最 后 ， 设 置 “ 置 信 度 限制 宽度 ”和 “ACF 和 PACEF 输出 中 的 最 大 延迟 数 ”《〈 保 持 默 
认 设置 ) 。 

置信 度 限 制 宽 度 (Confidence Limit Width) : 计算 模型 预测 和 残 差 自 相 关 的 置信 区 
间 。 可 以 指定 任何 小 于 100 的 正 数 。 默 认 情况 下 ， 将 使 用 95% 置 信 区 间 。 

ACF 和 了 ACF 输出 中 的 最 大 延迟 数 (Maximum Number of Lags In ACF and PACF 
Output) : 可 设置 在 自 相 关 和 偏 自 相 关 的 表 和 散 点 图 中 显示 的 最 大 延迟 数 ,， 即 最 大 时 滞 。 

以 上 设置 全 部 结束 后 ， 单 击 “ 执 行 ”按钮 ， 即 可 在 管理 器 窗口 的 “模型 ”标签 下 显 
示 生 成 的 “专家 建 模 ”模型 。 将 生成 的 “专家 建 模 ” 模 型 拖 入 到 数据 流 区 域 ， 并 建立 从 
“时 间 区 间 ” 节 点 到 “专家 建 模 ”的 连接 。 

双击 生成 的 “专家 建 模 ” 节 点 ， 可 以 浏览 该 模型 的 详细 信息 。 在 “模型 ”标签 下 显 
示 了 模型 的 基本 信息 ， 如 图 9.20 所 示 。 

从 图 9.20 中 可 以 看 到 ， 专 家 建 模 器 为 我 们 建立 了 一 个 ARIMA(1,1.0)(0.0.0) 模 型 ， 也 
就 是 一 个 经 过 1 阶 差分 的 AR(1) 模 型 。 

预测 变量 为 0。 时 间 序 列 节点 可 为 时 间 序 列 建立 单 变量 ARIMA 模型 ， 也 可 以 在 模 
型 中 包括 预测 变量 来 建立 多 变量 ARIMA 模型 。 本 例 建立 的 是 单 变量 ARIMA 模型 ， 所 
以 预测 变量 为 0。 

固定 的 R**2， 即 stationary R-squared， 是 模型 的 拟 合 优 度 测度 。 此 统计 量 是 序列 中 
由 模型 解释 的 总 变异 所 占 比 例 的 估计 值 。 该 值 越 高 (最 大 值 为 1.0)， 则 模型 拟 合 会 越 好 。 
此 时 单 击 窗口 中 “视图 ”下 拉 列 表 框 ， 选 择 “ 高 级 ”选项 ， 可 以 显示 其 他 拟 合 优 度 测度 
值 ， 如 RMSE〈 均 方 根 误差 ) 、MAPE (平均 绝对 百 分 误 差 ) 、MAE (平均 绝对 误差 )、 
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MaxAPE (最 大 绝对 百分比 误差 ) 、MaxAE (最 大 绝对 误差 ) 等 。 如 前 文中 所 述 ， 预 测 
准确 度 通常 以 预测 误差 的 方差 最 小 为 准则 ， 所 以 可 以 重点 参考 MAE = 二 | 了 Y(t) 了 (0)| 的 
值 (这 里 n 为 残 差 的 个 数 ) 。 本 例 中 ，“ 专 家 建 模 ” 模 型 的 MAE=80.143。 


国文 件 ”如 生 成 


回 j 口 | 排 上方 式 [已 渤 择 |[ 视图 :简单 | 四 |] 
评估 中 使 用 的 记录 数 :118 


模型 
全 额 ARIMA(,1,0)(0,0,0) 0 0134 17.311 17.0 0.433 


FE 参数 | 残 差 | 汇总 | 设置 | 注解 | 


图 9.20 专家 建 模 基本 信息 


Cr=17.311， 是 对 残 差 序列 的 随机 性 进行 好 检验 的 C 统计 量 ，d 伍 17 是 自由 度 ; 
Sig.=0.433 是 O 统计 量 的 显著 性 值 (如 果 显著 性 值 小 于 0.05， 表 示 残 差 序 列 不 是 随机 的 ， 
则 意味 着 所 观测 的 序列 中 存在 模型 无 法 解释 的 结构 ， 也 就 是 说 所 建立 的 模型 并 不 理想 )。 

切换 到 “参数 ”标签 ， 如 图 9.21 所 示 。 


~ 0.365 0087 4.209 


图 9.21 模型 的 参数 
在 “评估 ” 列 中 显示 了 模型 中 参数 的 估计 值 ，SE 列 显 示 了 参数 估计 值 的 标准 误差 ; 
t 列 显示 了 参数 估计 值 除 以 标准 误差 后 的 值 ; Sig. 列 显示 了 参数 估计 值 的 显著 性 级 别 , 0.05 
以 上 的 值 视 为 没有 显著 的 统计 意义 。 
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切换 到 “ 残 差 ” 标 签 下 ， 显 示 了 残 差 序列 的 自 相 关 分 析 图 ， 如 图 9.22 所 示 。 


使 用 95.0% 置信 度 限制 


残 差 ACF 


残 差 PACF 


1 2 34 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2021 22 23 24 


图 9.22 残 差 序列 的 自 相关 分 析 


从 图 中 可 以 看 出 ， 残 差 序列 的 自 相 关系 数 全 部 落 入 95% 置 信 区 间 内 ， 说 明 残 差 序列 
是 随机 序列 。 

下 面 来 考察 一 下 该 模型 对 样本 数据 的 拟 合 情 况 。 将 “时 间 散 点 图 ”节点 添加 到 数据 
流 中 ， 并 建立 从 生成 的 “专家 建 模 ” 节 点 到 该 “时 间 散 点 图 ”节点 的 连接 。 对 该 “时 间 
散 点 图 ”节点 进行 如 图 9.23 所 示 的 设置 ， 然 后 单 击 “ 执 行 ”按钮 ， 即 可 得 到 如 图 9.24 
所 示 的 时 间 散 点 图 。 


令 [全 额 515- 人 金额 ] 


| 


图 : @) 选 定 序列 〇 选 定时 间 序列 异型 
分 全 额 
人 少 3T5- 人 金额 


序列 : 


六 轴 标 签 : @) 默认 值 〇 ) 自 定义 


口 在 单独 面板 中 显示 序列 门 
显示 :四 行 

点 

平稳 

可 限制 记录 要 绘制 的 最 大 记录 数 : 
图 | 外 观 | 输出 | 注解 


确定 || b> 执行 


图 9.23 设置 时 间 散 点 图 节点 
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00-1-1 02-1-1 04-1-1 06-1-1 08-1-1 10-1-1 
STI-TimeLabel 


图 9.24 ”预测 值 与 期 望 值 的 时 间 散 点 图 


从 图 9.24 中 可 以 看 到 ,预测 值 曲线 基本 上 禾 盖 在 期 望 值 之 上 ， 说明 模型 对 数据 的 拟 
合 效果 很 好 。 

最 后 ， 向 数据 流 区 域 中 添加 “ 表 ” 节 点 ， 建 立 从 生成 的 “专家 建 模 ”节点 到 “ 表 ” 
节点 的 连接 ， 执 行 “ 表 ”节点 ， 即 可 将 预测 结果 输出 到 表 中 ， 如 图 9.25 所 示 。 


国 表 (10 个 字段 ，122 条 记 录 ) 


国文 件 号 编 和 巧 生成 ”| 图 名 | 多 | 绚 

el.|STLTmeL ] STL_Year| 5TL sn] 5TS 金额 [5TSLCL 金 疯 5TSUCI 金额 
115 115 六 月 2009 2009 0 21510.080 20920.136 22112.332| 有 2 
116 “|116 七 有 2009 2009 0 21788.861 21191.271 22398.919 
117 |117 作 月 2009 2009 0 22228.697 21619.044 22851.069 
118 |118 九 月 2009 2009 0 22570.263 21951.242 23202.199 


119 119 十 月 2009 2009 1 23294.571 22536.065 24073.895 

120 120 十 一 月 2009 2009 1 23853.812 22551.752 25216.911 

121 121 十 二 月 2009 2009 1 24417.818 22651.222 “26295.887| 悦 

122 122 一 月 2010 2010 1 24991.945 22815.020 ”27336.416| 梧 
4 


图 9.25 “专家 建 模 ”节点 的 输出 结果 


在 输出 结果 中 ,“$TS- 金 额 ”是 预测 结果 ， 表 中 的 最 后 4 行 是 对 未 来 4 期 的 预测 
值 ， 即 : 

2009 年 10 月 : 23 294.571 2009 年 11 月 : 23 853.812 

2009 年 12 月 : 24 417.818 2010 年 1 月 : 24 991.945 

下 面 再 利用 指数 平滑 方法 建立 另 一 个 时 间 序 列 模型 。 将 “时 间 序 列 ” 节 点 添加 到 数 
据 流 中 ， 并 建立 从 “时 间 区 间 ” 节 点 到 该 “时 间 序 列 ”节点 的 连接 。 打 开 该 “时 间 序 列 ” 
节点 的 编辑 窗口 ， 做 如 图 9.26 所 示 的 设置 。 
将 建 模 方法 设置 为 “指数 平滑 ”然后 单 击 “ 标 准 …” 按钮 , 将 模型 类 型 设置 为 “Holts 
线性 趋势 ”“ 目 标 转换 ”设置 为 “自然 对 数 ”( 将 指数 增长 趋势 转换 为 线性 增长 趋势 )。 


时 间 序列 分 析 与 预测 
设置 结束 后 即 可 执行 ， 得 到 生成 的 holts 模型 。 


回 Holts 线性 趋 扫 


使 用 现 有 模型 记录 评估 OE 


方法 。 [指数 平滑 可 标准 _ 〇 阻尼 趋势 


使 用 所 有 记录 估计 模型 (Oy 
预测 4 个 记录 超出 估计 时 限 O 〇 Winters 加 法 


置信 和 度 限制 宽度 (96); 
ACF 和 PACF 输出 中 的 最 大 延迟 数 ; 


O 〇 Winters 乘法 


图 9.26 设置 指数 平滑 建 模 参数 


模型 的 浏览 与 预测 与 前 面 的 描述 基本 一 致 ， 这 里 不 再 资 述 。 预 测 结果 显示 ，holts 模 
型 的 MAE=85.052， 大 于 前 面 “ 专 家 建 模 ”模型 的 MAE=80.143。 所 以 ， 从 MAE 的 比较 
来 看 ，“ 专 家 建 模 ” 模 型 更 优 。 
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